REAL-TIME MULTIPLE PEOPLE TRACKING WITH DEEPLY LEARNED CANDIDATE SELECTION AND PERSON RE-IDENTIFICATION
针对问题:不可靠检测结果和已有tracks的关联;
适用场景:On-line(real-time),tracking-by-detection
框架分两部分:candidate选择、数据关联;
candidates selection
候选人X的分数计算:
1(·)为真输出1否则输出0;
- classfication probability计算:
分类器框架:
输入图片,输出预测的分数图; - 使用ROI定义每一个待分类的候选ROIx=(x0,y0,w,h),其中左上角(x0,y0),高h,宽w;
- 为了实时性能,encoder为一个轻量级全卷积网络;
- 为了增加输出分数图的空间精度,decoder引入上采样;
- 在ground truth的bounding box附近采样得到正样本,在背景采样得到负样本;
- ROI池化对位置敏感,将每个ROI划分为K*K个网格;
- 一个分数图对应一个bin,从K*K个分数图中提取bins(size=K * K)的响应;
计算公式:
σ为sigmoid函数;Zi为第i个分数图;
- tracklet confidence计算:
对于每一帧,用Kalman滤波预测track的新位置,问题是不适用于长期追踪;
tracklet可信度用时间信息来测量滤波的准确性;
- 候选者在连续帧中的时间关联生成tracklet,track是tracklet集;
- track丢失则kalman滤波重新初始化,所以只用最后的tracklet描述track的可信度;
track可信度计算:
data association
算法来自《Deeply-learned part-aligned representations for person reidentification》
用图像特征的欧氏距离描述相似度;用一个三元组T描述图像的身份T=<Ii,Ij,Ik>,其中<Ii,Ij>来自同一个人的正对,<Ii,Ik>来自不同人的负对;损失函数定义如下:
通过忽略容易处理的tracklet来增加区分度;m为正;
层级数据关联:有最大距离阈值的图像侦测结果进行关联track——>基于IoU关联剩下的候选者——>没有关联的侦测结果新建track;
优势:只需要从侦测中提取ReID特征;
算法总览: