理解出错之处望不吝指正。
本文模型叫做UCT。就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型。模型的整体结构如下图所示(图中实线代表online tracking过程,虚线框内和虚线表示离线训练过程和在第一帧进行训练):
模型的目的是从样本中学习出一系列convolution filter ,则在样本上进行卷积得到的卷积response为(其中代表channel数):
则损失函数可以写为:
在测试阶段,可以看作:
-
作者把模型的训练过程分为两部分:
(1).off-line training
这部分训练即为在训练集上最小化损失函数,不同的是,由于最后一帧中的目标位置经常不在cropped patch的中心,所以作者将train patch cropped with jittering(抖动)。
(2).traing on first frame
这部分训练的目的是使模型适应于跟踪特定的目标。在训练时,虚线框内的权值使用均值为0的高斯分布进行随机初始化,然后使用SGD进行训练。
-
Online Tracking的过程主要包括以下两部分:
(1).Model update
作者认为在每一帧或者固定间隔帧进行更新是不合理的,于是作者提出了一个定义,PNR(peak-versus-noise ratio):
这里分母表示对response map中除去峰值的地方求均值。
当以下两个阈值都被满足的时候,才进行模型的更新。
(2).Scale estimation
这部分作者使用了DSST中一样的尺度估计方法,下面回顾一下。
①.在第一帧中以目标正中间为中心,截取S张不同尺度的图像,每张图像提取一个d维的特征向量,得到S*d的特征矩阵;
②.构造相关图g,大小为S*1,中间值最大,向两端递减;
③.计算出尺度滤波模板h;
④.对于当前帧,选取S张不同尺度的图像,和位置估计一样,计算出当前帧的相关图g,响应最大值对应的尺度即为估计的尺度。