Visual Tracking with Fully Convolutional Networks
方法
不同卷积层的特征描述物体的角度不同,高层的特征捕获的是语义信息,更像是一个类别检测器,低层的特征能把目标与相似的物体分开。另外,作者进行了特征图选择,将噪声及不相干的特组图去除。
VGG16特征分析
- 特征图是稀疏的且是局部的,可以用来做目标跟踪。
- 许多特征图与目标不相干,或者说是噪声。
- 不同层的特征图描述不同的信息,高层特征描述类别信息,低层特征捕获类内差异。
对应的三个贡献
- 分析CNN从大规模图像分类中学到的特征,找到适用于跟踪的那些特征。这有助于更好的理解CNN特征和设计适用于跟踪的特征。
- 作者提出了一种新的跟踪方法,它联合了两个不同卷积层,在处理激烈的外观变化和从相似的干扰项中区分目标上有相得益彰的效果。并且很好的缓和了漂移的问题。
- 提出了一种自动的选择有区分性的特征图谱,丢弃噪声和不相关的特征图谱,进一步的提高了跟踪的精度。
VGG Network
在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)2014上定位第一,分类第二。
整体框架
- 1.对conv5-3和conv4-3进行特征图筛选,选出最相关的特征图;
- 2.在conv5-3的feature maps基础上,构造一个通用网络GNet,用来捕捉目标的类别信息;
- 3.在conv4-3的feature maps基础上,构造一个特定网络SNet,用来将目标从背景中区分出来;
- 4.利用第一帧图像来初始化GNet和SNet,但是两个网络采用不同的更新方法
- 5.对于新的一帧图像,感兴趣区域(ROI)集中在上一帧的目标位置,包含目标和背景上下文信息,通过全卷积网络传递。
- 6.GNet和SNet网络各自产生一个前景heat map。于是对下一帧目标位置的预测就基于这两个热图。
- 7.干扰项检测用来决定采用上一步产生的哪一个热图,从而决定最后目标的位置。
实验及结果
平台:MATLAB based on Caffe,TITAN GPU 3 fps
数据集:OTB50