ECCV 2018 DaSiamRPN:《Distractor-aware Siamese Networks for Visual Object Tracking》论文笔记

最新推荐文章于 2024-06-10 21:19:11 发布

NeverMoreH

最新推荐文章于 2024-06-10 21:19:11 发布

阅读量6.4k

点赞数 5

分类专栏：目标跟踪 # 2018年论文文章标签：目标跟踪 ECCV2018 DaSiamRPN

本文链接：https://blog.csdn.net/ms961516792/article/details/82585212

版权

目标跟踪同时被 2 个专栏收录

43 篇文章 4 订阅

订阅专栏

2018年论文

20 篇文章 1 订阅

订阅专栏

理解出错之处望不吝指正。

本文模型叫做DaSiamRPN。本文首先分析了已有的孪生网络方法中的特征和缺点，如下图所示：

如上图所示，是几种孪生模型对ROI提取出的特征图。论文中提到，造成这种现象的原因是，在目标周围的背景信息中，非语义背景（即真正的“背景”信息，如地板、天空等）占据了主要部分，语义背景（背景中的人、狗等实体，我是这么理解的）占据了极少一部分。这种不平衡的分布使得模型趋向于去学习到一个区分前景（目标+语义背景）和背景（非语义背景）的模型，而不是学习一个实例级别的表示方法。为了处理这个问题，作者在训练集中添加了三类样本对，提高模型的学习效果。

添加了三类样本对

首先，是使用检测数据集中样本对。如上图中（a）。

作者认为，使用ILSVRC和Youtube-BB检测数据集，数据量还是太少，且数据集中的类别较少，不利于模型学习到泛化能力。作者提出使用ImageNet Detection和COCO数据集，通过一些数据增强技术（后文中提到包括平移、缩放、灰度变换、运动模糊等）构造出样本对，这类样本对用于提高模型的泛化能力。

其次，使用来自相同类别的负样本对。如上图中（b）。最后，使用来自不同类别的负样本对。如上图中（c）。

添加这两类负样本可以使模型在超出视线、全遮挡的情况下，避免模型漂移到其他的目标上去。这两类样本对用于提高模型的判别能力。

提出了一种增量学习方法

传统的详细学习在进行相似度计算时，使用下式：

$f(z,x)=\varphi (z)\star \varphi (x)+b$

本文中提出了一种新的选择最优bbox的标准，如下式（用csdn的公式编辑器没打出来argmax，有会的大佬教教我，哭...）：

从上式中我们可以看出，其实就是当前位置 $p_{k}$ 和模板计算相似度之后，减去当前位置与search region中其他位置的相似度的加权和。

由于交叉相关（互相关）操作是一个线性操作，我们可以使用这个特性对计算进行加速，如下式：

再考虑结合律，我们可以将式子改为如下所示的增量学习公式，式中 $\beta _t$ 是学习率。

将DaSiamRPN用于Long-term跟踪

当模型跟踪失败的时候，模型采取一种“局部-全局”增大search region的策略去重新跟踪目标。如下图所示（红色是ground truth，绿色的是跟踪结果，蓝色的是search region）：

至于如何判断模型何时跟踪失败，论文中提到“Since the distractor-aware training and inference enable highquality detection score, it can be adopted to indicate the quality of tracking results.”

模型的实验结果

VOT：

UVA：

提出的方法带来的效果改进：

NeverMoreH

关注

5
点赞
踩
18

收藏

觉得还不错? 一键收藏
5
评论
ECCV 2018 DaSiamRPN:《Distractor-aware Siamese Networks for Visual Object Tracking》论文笔记

理解出错之处望不吝指正。本文模型叫做DaSiamRPN。本文首先分析了已有的孪生网络方法中的特征和缺点，如下图所示：如上图所示，是几种孪生模型对ROI提取出的特征图。论文中提到，造成这种现象的原因是，在目标周围的背景信息中，非语义背景（即真正的“背景”信息，如地板、天空等）占据了主要部分，语义背景（背景中的人、狗等实体，我是这么理解的）占据了极少一部分。这种不平衡的分布使得...
复制链接

扫一扫