ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

最新推荐文章于 2022-09-15 17:34:07 发布

NeverMoreH

最新推荐文章于 2022-09-15 17:34:07 发布

阅读量1.3k

点赞数 1

分类专栏： # 2017年论文目标跟踪文章标签：目标跟踪 ICCV2017 DSiam

本文链接：https://blog.csdn.net/ms961516792/article/details/81485141

版权

目标跟踪同时被 2 个专栏收录

43 篇文章

订阅专栏

2017年论文

10 篇文章

订阅专栏

本文介绍了一种名为DSiam的目标跟踪模型，该模型利用动态孪生网络在线学习目标外观变化并抑制背景信息。它引入了一种自适应多层特征融合方法，并采用整个视频序列而非成对图像进行训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

理解出错之处望不吝指正。

本文模型叫做DSiam。作者提出一个Dynamic Siamese Network，可以使用一个transformation learning model来在线学习目标的外观变化并且压制背景信息。本文的另一个创新点在于作者提出了一个自适应聚合各个层的特征的方法（elementwise multi-layer fusion）。并且，本模型不用像以往的基于Siamese的模型使用pairs训练，而是使用整个video sequence一起训练。

模型的整体结构如下（虚线代表的是Siamese Network的步骤）：

传统的Siamese Network最终的结果通过下式计算（ $t$ 代表时间， $l$ 代表第 $l$ 层）：

在本文提出的模型中，公式如下：

这里 $V$ 代表target appearance variation transformation，目的是使当前帧得到的特征图相对于前些帧的特征图的变化变得平滑。 $W$ 代表background suppression transformation，目的是在特征图中“高亮”目标，减轻不相干的背景信息。“ $*$ ”代表循环卷积操作。

对于 $V$ 和 $W$ ，作者都是用的是如下的正则线性回归进行训练。

由于循环卷积操作，该式可以在频域快速计算（那个“五角星”代表共轭）：

$V$ 和 $W$ 的损失函数如下所示（具体每个符号代表什么可以在图中看出）：

作者提到的elementwise multi-layer fusion其实就是训练一个矩阵 $\gamma$ ，矩阵中的数值代表不同特征图的不同位置的权重，最终得到的respone map计算如下：

使用single layer的网络结构如下图所示：

作者详细推导了RLR和CirConv的梯度，使得模型可以端到端的训练：

训练的过程就是，首先经过前向传播，对于给定的N帧视频序列 $\left \{ \right.I_{t}|t=1,...,N\left. \right \}$ ，我们进行tracking后得到N个响应图，用 $\left \{ \right.S_{t}|t=1,...,N\left. \right \}$ 表示。同时，N个gound truth用 $\left \{ \right.J_{t}|t=1,...,N\left. \right \}$ 表示。则损失函数即为：