理解出错之处望不吝指正。
本文模型叫做DSiam。作者提出一个Dynamic Siamese Network,可以使用一个transformation learning model来在线学习目标的外观变化并且压制背景信息。本文的另一个创新点在于作者提出了一个自适应聚合各个层的特征的方法(elementwise multi-layer fusion)。并且,本模型不用像以往的基于Siamese的模型使用pairs训练,而是使用整个video sequence一起训练。
模型的整体结构如下(虚线代表的是Siamese Network的步骤):
传统的Siamese Network最终的结果通过下式计算(代表时间,
代表第
层):
在本文提出的模型中,公式如下:
这里代表target appearance variation transformation,目的是使当前帧得到的特征图相对于前些帧的特征图的变化变得平滑。
代表background suppression transformation,目的是在特征图中“高亮”目标,减轻不相干的背景信息。“
”代表循环卷积操作。
对于和
,作者都是用的是如下的正则线性回归进行训练。
由于循环卷积操作,该式可以在频域快速计算(那个“五角星”代表共轭):
和
的损失函数如下所示(具体每个符号代表什么可以在图中看出):
作者提到的elementwise multi-layer fusion其实就是训练一个矩阵,矩阵中的数值代表不同特征图的不同位置的权重,最终得到的respone map计算如下:
使用single layer的网络结构如下图所示:
作者详细推导了RLR和CirConv的梯度,使得模型可以端到端的训练:
训练的过程就是,首先经过前向传播,对于给定的N帧视频序列,我们进行tracking后得到N个响应图,用
表示。同时,N个gound truth用
表示。则损失函数即为:
使用BPTT(backpropagation through time)和SGD进行梯度传播和参数更新。