论文阅读:DaSiamRPN:Distractor-aware Siamese Networks for Visual Object Tracking

1、论文总述

这篇paper针对以前的tracker出现的三个问题,分别进行了改进,并在vot2018长时跟踪上取得了第二名的成绩,第一名为MBMD(后面有时间的话再看这篇)。

【注:】本文没有给网络结构图,应该就是和SiamRPN差不多,原作者发布的代码只有测试没有训练:https://github.com/foolwood/DaSiamRPN,
然自己在github上找了一个有训练过程的代码,有空研读下:
https://github.com/MathsXDC/DaSiamRPNWithOfflineTraining

这三个问题为:

1、常见的siam类跟踪方法只能区分目标和无语义信息的背景(即简单背景),当背景是有语义的物体时,也就是有干扰物(distractor)时(即背景是同类物体或不同类物体但是个物体时),表现不是很好,也就是在真目标变形或消失时容易drifting(漂移)到这些有语义的distractor上,所以这些方法的鲁棒性和长时跟踪效果不好。

2、 大部分siam类跟踪器在跟踪阶段不能更新模型,即他们的模板输入一直是第一帧被框住的目标,训练好的模型对不同特定目标都是一样的。这样带来了高速度,也相应牺牲了精度。

3、在长时跟踪的应用上,siam类跟踪器不能很好的应对全遮挡、目标出画面等挑战,自己在做实验时,发现跟踪器在目标消失时,跟踪器很容易把假的目标当成真的去跟踪,这样当真目标再次出现时,由于只是在局部搜索,跟踪器可能也不会再次把它当做真目标了,可能一直跟着那个假目标走了,说明网络没有学到这个目标的细粒度特征,只是学了个大概,只能区分简单的背景和目标(最近也刚好看到 Focal loss 这篇目标检测的文章,发现他也是解决简单样本对网络训练的影响,他是通过减小简单负样本的权重来实现的)

本文提出的对这三个问题对应的解决办法为:

1、针对训练数据中的非语义背景和具有语义的干扰物背景的数据不平衡问题(就是简单背景样本太多了,而困难负样本太少),作者把ImageNet和COCO检测数据库中的数据也通过数据增广的方式做成 正样本对 来扩大训练数据集的种类,提高网络的泛化能力;在不同的类别中和相同类别中分别提取照片做为负样本,制造困难负样本,这篇文章中除了使用简单的转换,光线变换,还使用了运动方向模糊的方法(运动方向可以从低层特征得到),以此来提升跟踪器的判别能力

【注:】VID数据集也是ImageNET的一个视频数据集,可以用来训练跟踪网络,原来是只有VID数据集和Youtobe-BB数据集。

The diversity of positive pairs is able to improve the
tracker’s discriminative ability and regression accuracy.

The negative pairs from different categories can
help tracker to avoid drifting to arbitrary objects in challenges such as out-of-
view and full occlusion, while negative pairs from the same categories make the
tracker focused on fine-grained (细粒度) representation.

在这里插入图片描述

2、目前的训练策略已经增强了模型的判别力,但是模型还是难区分图像中对象很相似的情况,针对模型不更新(这样的话相当于对于任何视频,网络都是一样的,没有充分利用这个视频里的上下文信息)以及抑制distractor的问题:文中提出了***干扰物识别模型***(Distractor-aware Incremental Learning):

在这里插入图片描述
f为互相关操作,z为当前帧的模板,该式最高的值q是跟踪结果,通过非极大值抑制,选出大于某阈值的一些distractors就是干扰物di,然后到跟踪帧时,响应得分要减去这些干扰物与搜索区域的响应,即利用此函数对这些重新排序,当然从这个式子也可以看出,就是要使得target对象与模板之间越像越好,与di之间越不像越好。

但是这样,在每一帧就会多出n次计算,所以作者使用结合率对计算进行加快:

在这里插入图片描述
有了上面的定义后,它们将跟踪当前帧作为一个增量学习过程,利用前面帧的信息来学习到当前帧的目标,就使得跟踪模板是在线更新的,可以处理很多目标严重遮挡,目标表观变化等问题:

在这里插入图片描述【注:】故这篇文章在跟踪的时候使用的是分类器而不是以往的相似度度量方式

3、针对第三个不能长时跟踪的问题:本文提出了 local-to-global 的策略来进行长时间跟踪,

注意: 该策略的提出是在前两个改进的基础上提出的,是层层递进的关系,通过训练数据的增强和干扰物识别模型的提出,模型的判别能力已经很强了,这样在目标全遮挡时才可以扩大搜索区域,因为一扩大搜索区域,干扰物势必增多,如果没有前面的两个改进进行铺垫,肯定会把假目标当成真目标。

在这里插入图片描述由上图可以看到,SiamRPN的score只是表示是否找到前景,而本文的score能准确表示是否找到正确目标。所以当score比较小的时候,就扩大搜索框,直到找到目标。(这边搜索框的大小表示卷积操作在图片上扫的区域,因为在视频中两帧之间目标不会有很大的变化)

2、相关论文特点

SINT [31], GOTURN [8], SiamFC [2]
and RASNet [36] learn a priori deep Siamese similarity function and use it in
a run-time fixed way. CFNet [33] and DSiam [7] can online update the tracking model via a running average template and a fast transformation learning
module, respectively. SiamRPN [16] introduces a region proposal network after
the Siamese network, thus formulating the tracking as a one-shot local detection
task.

3、长时跟踪的发展

Traditional long-term tracking frameworks can be divided into two groups: earlier methods regard tracking as local key point descriptors matching with a geometrical model [25,24,21], and recent approaches
perform long-term tracking by combining a short-term tracker with a detector

4、SiamFC and SiamRPN抑制干扰物的方式

SiamFC and SiamRPN use a cosine window to suppress the distractors. In this way, the performance is not guaranteed when the motion of objects are messy. Most existing
Siamese network based approaches provide inferior performance when encountering with fast motion (快速移动时性能不好)or background clutter. In summary, the potential flaw
is mainly due to the misalignment of the general representation domain and the
specifical target domains.

5、 online classifier

This distractor-aware tracker can adapt the existing similarity metric (general)
to a similarity metric for a new domain (specific). The weight factor αi can
be viewed as the dual variables with sparse regularization, and the exemplars
and distractors can be viewed as positive and negative samples in correlation
filters. Actually, an online classifier is modeled in our framework. So the adopted
classifier is expected to perform better than these only use general similarity
metric

6、vot2017的reset机制

In this section the latest version of the Visual Object Tracking toolkit (vot2017-
challenge) is used. The toolkit applies a reset-based methodology. Whenever
a failure (zero overlap with the ground truth) is detected, the tracker is reinitialized five frames after the failure. The performance is measured in terms of
accuracy (A), robustness ®, and expected average overlap (EAO).
In addition,VOT2017 also introduces a real-time experiment.

7、short-term超越ECO

在这里插入图片描述

8、Ablation analyses

在这里插入图片描述

【注:】这个训练数据的这部分感觉被后面很多的网络所借鉴,如SiamRPN++,但这个distractor-aware updating我还不太了解。

9、网络效果

在这里插入图片描述

10、 UAV20L的12中挑战

In this section, we report additional results on the UAV20L with 12 different attributes, including out-of-view, background clutter, illumination variation, viewpoint change, camera motion, similar object, scale variation, aspect ratio change,low resolution, fast motion, full occlusion, partial occlusion.

注:移出视野, 背景杂波,光照变化,视角变化,摄像机运动,相似对象,尺度变化,长宽比变化,低分辨率,快速运动,全遮挡,部分遮挡。

11、 OTB2013和2015中的11种挑战

The success plots on OTB-2013 for eleven challenge attributes: in-plain rotation, out-of-plane rotation, scale variation, out of view, occlusion, background clutter,
deformation, illumination variation, low resolution, fast motion and motion blur.

【注:】平面内旋转,平面外旋转,尺度变化,视野外,遮挡,背景杂波,
变形,光照变化,低分辨率,快速运动和运动模糊。

参考文献

1、DaSiamRPN论文阅读笔记(同是研究生二年级,他读的论文比我多多了,还读的早,受打击了,要发奋图强了!)

2、DASiamRPN阅读笔记:Distractor-aware Siamese Networks for Visual Object Tracking

3、ECCV视觉目标跟踪之DaSiamRPN

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值