理解出错之处望不吝指正。
文章链接
整体结构
本文的模型结构如下图所示:
创新点
本文的改进我觉得十分新颖:“每张特征图学习跟踪目标的一个局部结构”,模板经过卷积后得到
1
×
1
×
4096
1\times 1\times 4096
1×1×4096大小的特征图,每张特征图代表该物体的一个属性(特征),基于此特征图做相似计算。
从上图来看,我们可以知道,文中主要有三个新增加的部分,分别是“Local Pattern Detection”、“Context Modeling”和“Integration Module”。
“Local Pattern Detection"部分是通过两个卷积层(
11
×
11
11\times 11
11×11和
5
×
5
5\times 5
5×5)实现的,输出的每张特征图代表一个局部特征。
“Context Modeling”部分通过“消息传递”机制实现,使用的是CRF(条件随机场)。作用是压制背景噪声、加强特征。
“Integration Module”部分通过
6
×
6
6\times 6
6×6卷积核实现,将模板帧的特征图由
6
×
6
×
4096
6\times 6\times 4096
6×6×4096变为
1
×
1
×
4096
1\times 1\times 4096
1×1×4096(其实就是变成了一个向量,向量中的每个值代表该物体的一个属性,和全局均值池化类似)。
实验结果
由于要学习部分特征,作者选择使用ILSVRC2014和ALOV作为训练数据集,模型的实验结果如下所示:
1.OTB-2013
87.4% 0.638 45FPS
2.OTB-2015
85.1% 0.621 45FPS
3.VOT-2016