1、思想:
(1)、跟踪可以被看做一个相似性学习的问题
即学习一个函数f(z,x):其中z为样本图像即视频第一帧中给出的目标 ; x为候选图像,即当前帧的搜索区域
该函数输出高分数当z和x描述同一个目标时,否则输出低分数
执行跟踪时,可以去测试所有可能的位置,然后选择与目标之前的特征最相似的候选位置
(2)、该论文中的实现:
标签设置:
分数矩阵(即网络图中的17×17×1)中的每个元素将被设置为+1:如果该元素在距离中心的R半径内,否则设为-1
也就是说标签分数矩阵的设置为中心R半径内为+1,其余为-1。论文中说明了训练时模板图像z和候选图像x都是以目标为中心的
2、具体实现(网络结构)
(1)网络结构
3、特征提取部分
网络中的函数实现对目标z外表的特征提取,与x分支的
参数相同
模板图像大小为127×127,候选图像(搜索区域)大小为255*255
4、互相关层(这里用简单的卷积操作就计算出了相关操作)
图中星号为互相关层,用于计算目标与候选窗口的相似性;
具体执行时以模板图像的高维特征,即图中的6×6×128大小的特征作为卷积核去与候选特征22*22*128做卷积操作,最后
得到相应的分数矩阵,大小为17×17×1
5、训练:
(1)损失函数
自行画图分析y为+1和-1时的损失函数(自己画的图图太丑哈哈)
5、一些细节和思考
(1)训练时一对图像的选取都是为目标为中心位置选取的,如果不满足则用平均RGB填充
(2)类别不平衡:在损失中为分数矩阵中的正负样本加上权重以消除类别不平衡问题
(3)尺度问题:目标的尺度规范化:采用固定的纵横比,实验中分别实验了3个尺度和5个尺度
固定纵横比的缺点也是很明显了
(4)该全卷积网络也能够去学习到sub-window相对于中心的偏置(论文中假设搜索区域是以目标为中心的,我们认为这些与目标相邻的区域是最重要和对traker最有影响的)
(5)理论上可以对不同的目标应用不同的模板大小,本论文中采用了统一的模板图像大小(即127×127),因为这样有利于
mini-batch的实现,未来的工作中可以放宽这个假设
(6)不在线更新,不保留目标之前的外观特征,也没有提取其他特征(颜色、光流等),不执行目标框回归,只是最简单的使用和证明了全卷积栾生网络在跟踪问题上的有效性。