1. 概述
- 序列重试别也成为视频重识别,利用一段连续的行人图片序列进行行人重识别任务。序列(tracklet)搜索序列的问题。
- 特点:姿态变化丰富、遮挡现象普遍、总有几帧质量好几帧质量差、需要考虑如何融合各帧信息。
2. Baseline
(1)单帧->序列
- 使用一个单帧训练好的ReID模型,对每一帧图像都提取一个ReID特征。 直接通过平均池化或者最大池化来得到最终的ReID特征。
- 比较简单,性能依赖于单帧ReID模型的性能;但是,没有考虑到帧与帧之间的时间顺序
(2)CNN + LSTM
- 类似于动作识别,利用CNN提取特征,然后利用LSTM提取时序特征。
- 可以考虑到帧与帧之间的时序信息,但是LSTM计算耗时大。
3. 难点
- 如何对多帧特征进行特征融合
- 如果对每帧图像进行质量判断
- 如何提取序列图像的时序信息(运动步态特征)
- 如何解决序列帧数不统一问题(10帧的序列、20帧的序列)
- 如何提高序列ReID的运算效率
4. 代表算法
(1)AMOC
帧与帧之间存在着运动步态特征,有利于ReID任务。
- 包含空间子网络(SpatNets)和运动子网络(MotiNets)
- 空间子网络提取单帧图像的内容特征
- 运动子网络提取相邻两帧的运动特征
- 融合内容特征和运动特征作为该帧的最终特征
- 利用RNN网络融合所有帧的特征信息,更大范围的运动特征的提取
- 利用对比损失判断两个序列是否属于同一行人ID
(2)DFGP
(3)RQEN
一段序列的某些帧中会出现行人被部分遮挡的问题,如果简单的对特征进行平均池化,会造成特征分布不均匀(上半身的信息非常多,但是被遮挡的下身部分几乎不存在)。
方法:
- 对每帧行人提取14个关键姿态点,并分为3个语义part(上半身、大腿、小腿)。
- 先验知识:当某个姿态点被遮挡,pose map的响应值会非常低。
- 两个分支:上分支对图像进行特征提取,对三个part进行打分。下分支将图像的特征分成三个part。