ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

  理解出错之处望不吝指正。

  本文模型叫做DSiam。作者提出一个Dynamic Siamese Network,可以使用一个transformation learning model来在线学习目标的外观变化并且压制背景信息。本文的另一个创新点在于作者提出了一个自适应聚合各个层的特征的方法(elementwise multi-layer fusion)。并且,本模型不用像以往的基于Siamese的模型使用pairs训练,而是使用整个video sequence一起训练。

  模型的整体结构如下(虚线代表的是Siamese Network的步骤):

  传统的Siamese Network最终的结果通过下式计算(t代表时间,l代表第l层):

   

  在本文提出的模型中,公式如下:

   

  这里V代表target appearance variation transformation,目的是使当前帧得到的特征图相对于前些帧的特征图的变化变得平滑。W代表background suppression transformation,目的是在特征图中“高亮”目标,减轻不相干的背景信息。“*”代表循环卷积操作。

  对于VW,作者都是用的是如下的正则线性回归进行训练。

   

  由于循环卷积操作,该式可以在频域快速计算(那个“五角星”代表共轭):

   

  VW的损失函数如下所示(具体每个符号代表什么可以在图中看出):

   

   

   

   

   

  作者提到的elementwise multi-layer fusion其实就是训练一个矩阵\gamma,矩阵中的数值代表不同特征图的不同位置的权重,最终得到的respone map计算如下:

   

   

 

  使用single layer的网络结构如下图所示:

   

  作者详细推导了RLR和CirConv的梯度,使得模型可以端到端的训练:

   

   

   

  训练的过程就是,首先经过前向传播,对于给定的N帧视频序列\left \{ \right.I_{t}|t=1,...,N\left. \right \},我们进行tracking后得到N个响应图,用\left \{ \right.S_{t}|t=1,...,N\left. \right \}表示。同时,N个gound truth用\left \{ \right.J_{t}|t=1,...,N\left. \right \}表示。则损失函数即为:

   

   

  使用BPTT(backpropagation through time)和SGD进行梯度传播和参数更新。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值