ECCV 2018 DaSiamRPN:《Distractor-aware Siamese Networks for Visual Object Tracking》论文笔记

  理解出错之处望不吝指正。

  本文模型叫做DaSiamRPN。本文首先分析了已有的孪生网络方法中的特征和缺点,如下图所示:

  如上图所示,是几种孪生模型对ROI提取出的特征图。论文中提到,造成这种现象的原因是,在目标周围的背景信息中,非语义背景(即真正的“背景”信息,如地板、天空等)占据了主要部分,语义背景(背景中的人、狗等实体,我是这么理解的)占据了极少一部分。这种不平衡的分布使得模型趋向于去学习到一个区分前景(目标+语义背景)和背景(非语义背景)的模型,而不是学习一个实例级别的表示方法。为了处理这个问题,作者在训练集中添加了三类样本对,提高模型的学习效果。

  •   添加了三类样本对

  首先,是使用检测数据集中样本对。如上图中(a)。

  作者认为,使用ILSVRC和Youtube-BB检测数据集,数据量还是太少,且数据集中的类别较少,不利于模型学习到泛化能力。作者提出使用ImageNet Detection和COCO数据集,通过一些数据增强技术(后文中提到包括平移、缩放、灰度变换、运动模糊等)构造出样本对,这类样本对用于提高模型的泛化能力。

  其次,使用来自相同类别的负样本对。如上图中(b)。最后,使用来自不同类别的负样本对。如上图中(c)。

  添加这两类负样本可以使模型在超出视线、全遮挡的情况下,避免模型漂移到其他的目标上去。这两类样本对用于提高模型的判别能力。

 

  •   提出了一种增量学习方法

  传统的详细学习在进行相似度计算时,使用下式:

    f(z,x)=\varphi (z)\star \varphi (x)+b

  本文中提出了一种新的选择最优bbox的标准,如下式(用csdn的公式编辑器没打出来argmax,有会的大佬教教我,哭...):

   

  从上式中我们可以看出,其实就是当前位置p_{k}和模板z计算相似度之后,减去当前位置与search region中其他位置的相似度的加权和。

  由于交叉相关(互相关)操作是一个线性操作,我们可以使用这个特性对计算进行加速,如下式:

   

  再考虑结合律,我们可以将式子改为如下所示的增量学习公式,式中\beta _t是学习率。

   

 

  •   将DaSiamRPN用于Long-term跟踪

  当模型跟踪失败的时候,模型采取一种“局部-全局”增大search region的策略去重新跟踪目标。如下图所示(红色是ground truth,绿色的是跟踪结果,蓝色的是search region):

  至于如何判断模型何时跟踪失败,论文中提到“Since the distractor-aware training and inference enable highquality detection score, it can be adopted to indicate the quality of tracking results.”

 

  •   模型的实验结果

  VOT:

  UVA:

  提出的方法带来的效果改进:

 

 

 

 

  • 5
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值