Hierarchical convolutional features for visual tracking
方法简介
本文利用深度学习各个 layer 之间提取出来的不同特征进行跟踪。因为各个层次提出来的 feature 具有不同的特征。使用预训练好的VGG-19,当中的conv3-4、conv4-4、conv5-4的输出,而不是使用最后全卷积层的输出作为特征提取层,从三个层当中提取的特征分别经过相关滤波器学习得到不同的模板,然后对所得到的三个置信图进行加权融合得到最终的目标位置。(低层特征有较高的分辨率能够对目标进行精准的定位,高层特征包含更多的语义信息,能够处理较大的目标变化和防止跟踪器漂移,能够对目标进行范围定位。因此选择不同的特征提取层)
算法流程
算法流程如图所示:
1.输入:初始化目标位置
P
0
P_{0}
P0
2.输出:估计的目标位置
p
t
=
(
x
t
,
y
t
)
p_{t}=(x_{t},y_{t})
pt=(xt,yt)
3.在跟踪序列未结束之前,执行以下:
- 以 ( x t − 1 , y t − 1 ) (x_{t-1},y_{t-1}) (xt−1,yt−1)为中心的第 t t t帧中裁剪出搜索窗口,并使用公式(1)通过空间插值提取卷积特征
- 在每层 l l l上使用学习滤波器和公式(4)计算置信度得分 f l f_{l} fl
- 使用公式(5)在响应图集上由粗到细估计新的位置 ( x t , y t ) (x_{t},y_{t}) (xt,yt)
- 裁剪出以 p t = ( x t , y t ) p_{t}=(x_{t},y_{t}) pt=(xt,yt)为中心的新patch,通过插值提取卷积特征
- 对每层
l
l
l进行更新相关滤波器
w
t
l
w_{t}^l
wtl
代码运行
实验结果
定性结果评价表示,HCF跟踪算法对大多数目标序列集都能够进行很好的跟踪。