1Introduction
- 行人识别的挑战
在不同时间地点,识别同一个人
在多摄像头或照片中,追踪同一个人
图像库中搜索行人
相册照片聚类
商店访客分析
难点:variations in pose, viewpoints illumination, and occlusion
- 传统解决方案:
专注于低水平的特征,例如颜色、形状和局部描述
深度学习CNN:通过各种度量学习loss端到端的学习特征
Contrastive loss, triplet loss, 改进的triplet loss , quadruplet loss , and triplet hard loss
- 基于CNN学习全局特征的方法,没有考虑人的空间结构,弊端:1 2 3 4
当前的解决思路:
1)local feature learning
将整个身体分成一些小部分,但是没有考虑部分对齐
无法解决上述困扰:inaccurate detection box, pose variation, and occlusion.
- pose estimation: additional supervision
a pose estimation step (which is often error-prone)
- AlignedReID算法:learns a global feature
在学习期间会进行自动局部对齐,并且不需要额外的监督和姿态估计
学习阶段:
two branches for learning a global feature and local features jointly
local branch:a shortest path loss 来 align local parts
inference stage:仅提取全局特征
metric learning setting :(研究物体间距离):采用mutual learning approach 让两个两个模型互相学习更好的表示
结合了AlignedReID和相互学习:战胜了其他模型以及人类的表现
2Related Work
- Metric Learning:
将原始图像转化成嵌入特征,计算出的距离作为他们的相似度
主要的方法技巧:
Triplet loss 会减小正负样本对的差距。通过hard mining 为训练模型选择合适的样本是有效的。将softmax loss 和metric learning loss 结合起来加速收敛也是普遍的方法
- Feature Alignments:
学习的全局特征来你表示行人图像,但是忽视了图像的空间局部信息
一些模型尝试将图片分为多个部分学习局部信息,但是因为没有对齐依然不能解决检测框不准确,遮挡以及姿态错位的问题
近期流行的alignments方法:
pose estimation 例如,姿势不变嵌入(PIE)将行人与标准姿势对齐,以减少姿势[52]变化的影响
Global-LocalAlignmen