一、基于判别式模型的目标跟踪算法一般框架
1.候选框选择
滑动窗的方法(蛮力搜索)、粒子滤波的方法(重要性采样)、物体对象度(objectness、proposal)
2.特征提取
传统手工设置的特征:gray、color、HOG、haar-liker、LBP(人脸检测)、各种特征融合
深度特征:CNN、SDAE、多层特征的融合。
3.预测模型(分类器)
机器学习中的分类器:回归、SVM等
4.集成(可选)
多个tracker融合的方法,工作主要在融合策略上,how to calculate the weight?
5.更新模块
实质是分类器的更新,怎样判定跟踪结果是否准确?常用方法一个是根据置信图中最大值设置阈值,另外一个是根据最大值与最小值得差来设置相对值。
参见论文:《Understanding and Diagnosing Visual Tracking Systems》[1]
二、Proposed Tracker: RPNT
文章提出的算法还是在tracking-by-detection框架下,将detection当下比较火的R-CNN[2]算法用到tracking上。
1.候选框的选择:粒子滤波+proposal
正样本:
选取上一帧训练更新好的分类器(SSVM)对当前候选框打分最高的粒子,此外加了一个运动平滑约束函数S(上一帧中心位置点和当前帧确定的中心位置点距离)
负样本:
在候选框中除去正样本中选取打分最高的粒子,有hard example的思想,L函数约束候选框和正样本的交叉面积最小。
2.特征提取:CNN
借助Fast-RCNN一整张图学习一次feature map的思想加快运算速度,同时因为用到的是SVM做分类器要求feature大小相同,Rol pooling实质是Spatial Pyramid Pooling[ 3].
3.分类器
online SSVM,比较经典的跟踪器Struck[4]
4.更新模块
当预测的位置在proposal方法产生的候选框中时更新分类器,增强分类器discriminative和objects-like的能力。
三、文中实验部分对比之前跟踪器EBT[5]
本文是EBT的改进工作,EBT中的objectness产生的候选粒子主要是通过Edgeboxex[6]算法中产生的粒子再re-rank一下,同时检测的时候只对objectness产生的粒子打分,训练分类器的时候用粒子滤波和objectness两部分产生的粒子。
四、参考文献
1.Understanding and Diagnosing Visual Tracking Systems
2.Fast R-CNN
3.Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
4.Struck: Structured output tracking with kernels
5.Beyond Local Search: Tracking Objects Everywhere with Instance-Specific Proposals
6. Edge boxes: Locating object proposals from edges