行人重识别:又叫“跨镜追踪技术”,是为了解决跨摄像头跨场景下的行人检索。因此,这篇论文里会反复提到camera-pair(最开始看的时候确实疑惑了一下为什么是成对的相机)。
一、要解决的问题(研究动机)
以往模型的各种缺点:
有监督学习:需要用大量有标签本进行训练,而标签标注昂贵,难以在现实场景应用。
无监督学习:模型性能低
半监督学习:源域目标域需要有共同特征
二、研究目标
通过同时优化无标签行人轨迹数据,令其在相机内部视角下更具鉴别性,在相机间视角下更具关联性,来构建无监督且性能好的模型。
三、提出方法的依据
(1)使用自动生成的行人轨迹信息来学习行人鉴别性知识,有效避免对标注数据的需求。
(2)未假设视角间有域信息重叠,不需要域特有知识,可扩展到任意视角、背景信息不可知的监控网络。
四、技术路线
(1)Unsupervised Per-Camera Tracklet Formation
用现有方法自动提取行人轨迹S,S包含大量行人照片;通过无监督、相机独立的方式给每个轨迹S注释唯一类别标签y;得到:
挑战(由无监督引起):
- 由于频繁的轨迹碎裂,在一个摄像机视图下的人出现期间,经常会生成多个小轨迹。破碎轨迹用无监督方式分配会有错误。
- 在不相交的摄影机视图之间,无法访问轨迹标签之间的正对ID和负对成对ID对应关系。
(2) Unsupervised Tracklet Association.
(Discrimination也是为了实现Association)
1. Per-Camera Tracklet Discrimination Learning
不同视角相机看做不同分类任务,分类标签为单相机下无监督轨迹标签。
用损失约束样本分到正确类别下的概率最大,并将每个相机的损失求和。
然而,轨迹碎片会引起轨迹标签复制问题,即同ID的轨迹被分配不同标签。
因此,改用软标签来解决这个问题,在视角内探究轨迹相似度。因为相同行人的轨迹碎片在视觉上更相似。
构建关系矩阵A,用向量s表示轨迹,并根据下式更新s:
为减小相似且不匹配轨迹的干扰,处理A,使其稀疏:
将第t个相机视角纳入考虑:
得到软标签(个体/和,是个概率):
更改后的损失:
使x的类别概率尽量向一个靠拢
2. Cross-Camera Tracklet Association Learning
最多的轨迹对为负相关,但是只有正相关对才能提供有用的跨域信息。 而利用正相关对有很多困难:s不可靠;错误的正相关对很容易降低性能。
解决措施: ( model matureness adaptive matching pair search mechanism)逐渐发现更多可能为真的积极样本对。
首先构建轨迹向量s的近邻集,
并让s与其近邻靠拢,来增强鉴别性。
因为该损失只用于有跨域匹配对的轨迹s,所以可以称之为模型成熟度自适应的。随着训练的进行,成熟度增加,让更多的跨相机轨迹匹配对被发现。
3. Joint Unsupervised Tracklet Association Learning
CCTA利用自发现得到的跨相机轨迹联系增强模型表示学习能力。这基于PCTD的无监督学习和单一相机下的独立轨迹标签。
4. Model Training and Testing
分段训练
五、创新归纳
六、实验结果
七、我的思考