DaSiamRPN学习

Distractor-aware Siamese Networks for Visual Object Tracking

参考文献:https://blog.csdn.net/superbinlovemiaomi/article/details/121617864

Abstract:

大多数Siamese追踪方法中使用的特征只能从非语义背景中区分出前景。语义背景总是被认为是干扰因素,这阻碍了Siamese追踪器的稳健性。本文中,我们专注于学习 Distractor-aware 的 Siamese网络,以实现准确和长期跟踪。首先分析了传统Siamese追踪器中使用的特征,训练数据的不平衡分布使得所学的特征不那么具有辨别力。在离线训练阶段,引入了一种有效的采样策略来控制这种分布,并使模型专注于语义干扰物。在推理过程中,我们设计了一个新的分心器感知模块来进行增量学习,它可以有效地将一般的嵌入转移到当前的视频领域。此外,我们通过引入一个简单而有效的从局部到整体的搜索区域策略,将提出的方法扩展到长期跟踪。

1、Introduction

目前Siamese网络存在三个问题:

  • 首先,大多数Siamese跟踪方法中使用的特征只能区分前景和非语义背景(即简单背景)。当背景是有语义的物体时,也就是有干扰物(distractor)时(即背景是同类物体或不同类物体但是个物体时),表现不是很好,也就是在真目标变形或消失时容易drifting(漂移)到这些有语义的distractor上,所以这些方法的鲁棒性和长时跟踪效果不好。
  • 其次,大多数Siamese追踪器在跟踪阶段不能更新模型,即他们的模板输入一直是第一帧被框住的目标,训练好的模型对不同特定目标都是一样的。这样带来了高速度,也相应牺牲了精度。尽管它们的简单性和固定模型的性质导致了高速度,但这些方法失去了在线更新外观模型的能力,而这种能力对于解释追踪场景中的急剧外观变化往往是至关重要的。
  • 第三,在长时跟踪的应用上,Siamese类跟踪器采用的是局部搜索策略,不能很好的应对全遮挡、目标出画面等挑战,跟踪器在目标消失时,跟踪器很容易把假的目标当成真的去跟踪,这样当真目标再次出现时,由于只是在局部搜索,跟踪器可能也不会再次把它当做真目标了,可能一直跟着那个假目标走了,说明网络没有学到这个目标的细粒度特征,只是学了个大概,只能区分简单的背景和目标。

针对这三个问题本文的贡献是:

  • 详细分析了传统Siamese跟踪器使用的特征,发现了训练数据中非语义背景和语义干扰项的不平衡是学习的主要障碍。
  • 提出了一种新的干扰感知Siamese Region Proposal网络(DaSiamRPN)框架,用于在离线训练中学习干扰感知特征,并在在线跟踪推理过程中显式抑制干扰。
  • 通过引入一种简单而有效的局部到全局搜索区域策略,对DaSiamRPN进行了扩展,使其能够进行长时跟踪,显著提高了跟踪器在视线外和完全遮挡条件下的跟踪性能。在短时和长时视觉跟踪基准的综合实验中,所提出的DaSiamRPN框架获得了SOTA的精度,并且速度远远超出实时。

2、Related Works

2.1、Siamese Networks based Tracking.

介绍了当前存在的一些网络及其指标(在GPU上):

  • SINT,开创性工作。先训练一个先验的深度Siamese相似性函数,在运行时固定。然后搜索与起始帧中给定的目标最相似的候选。【86 FPS】
  • SiamFC,全卷积Siamese。估计两帧之间的区域特征相似度。【83FPS】
  • RASNet。利用残差注意力网络学习注意力机制,来改善相似度指标。【100FPS】
  • GOTURN。使用深度回归网络预测连续帧之间的运动。
  • CFNet。将相关滤波器解释为Siamese跟踪框架中的可微分层,从而实现端到端表示学习。但与SiamFC相比,性能提升有限。
  • FlowTrack。利用Siamese架构中的运动信息来提高特征表示和跟踪精度。值得注意的是,CFNet和FlowTrack可以有效地在线更新跟踪模型。
  • SiamRPN。通过在Siamese网络的后面加上region proposal网络,将跟踪过程描述为一次(one-shot)局部检测任务。该网络采用大规模图像对进行端到端离线训练。

2.2、Features for Tracking.

视觉特征在包括视觉跟踪在内的计算机视觉任务中扮演着重要的角色。

  • Possegger。提出了一种干扰感知模型来抑制视觉干扰区域,而颜色直方图特征的使用在鲁棒性上要比深度特征差。
  • DLT。开创性的深度学习跟踪器,使用多层自动编码器网络。特征是以无监督的方式在部分80M Tiny Image数据集上预训练。
  • Wang。在视频仓库上学习两层神经网络,其中对特征学习施加了时间上的缓慢约束。
  • DeepTrack。从二进制样本学习两层CNN分类器,不需要预训练过程。
  • UCT。将特征学习和追踪过程形式化为一个统一的框架,使学习到的特征与追踪过程紧密耦合。

2.3、Long-term Tracking.

传统的长时跟踪框架可以分为两类:早期的方法将跟踪视为与几何模型相匹配的局部关键点描述符,最近的方法是将短时跟踪器与检测器相结合来执行长时跟踪。

  • TLD,开创性工作。它提出了无记忆的流群作为短期跟踪器和基于模板的检测器并行运行。
  • Ma。使用KCF跟踪器,加上随机蕨类(ferns)分类器作为检测器用于校正跟踪器。
  • MUSTer。是一个长时跟踪框架,使用KCF跟踪器,加上基于SIFT的检测器用于检测遮挡。
  • Fan和Ling。将DSST跟踪器与CNN检测器相结合,该检测器可以验证并潜在地校正短时跟踪器的候选。

3、Distractor-aware Siamese Networks

3.1、Features and Drawbacks in Traditional Siamese Networks(传统Siamese网络的特点和缺陷)

在详细讨论我们提出的框架之前,我们首先重温一下传统的基于连体网络的跟踪的特点。Siamese追踪器的核心是使用度量学习。其目标是学习一个嵌入空间,使不同物体之间的类间惯性最大化,同一物体的类内惯性最小。导致Siamese追踪器的普及和成功的关键贡献在于其平衡的准确性和速度。

image-20230325152136573

图1显示了SiamFC和SiamRPN的反应图。可以看出,对于目标来说,那些与背景有较大差异的物体也获得了高分,甚至一些无关的物体也获得了高分。SiamFC中得到的表征通常服务于训练数据中类别的判别性学习。在SiamFC和SiamRPN中,成对的训练数据来自同一视频的不同帧,对于每个搜索区域,那么语义上的背景占据了大部分,而语义实体和干扰项占据了较少。这种不平衡的分布使得训练模型很难学习实例级的表征,而倾向于学习前景和背景之间的差异。

在推理过程中,使用最近邻搜索区域内最相似的目标,同时忽略了第一帧中标注的背景信息。如图1.e所示,可以有效地利用跟踪序列中的背景信息来提高识别能力。

为了解决这些问题,我们提出在离线训练过程中生成更多的语义对,同时抑制在线跟踪中的干扰因素。

3.2、Distractor-aware Training(干扰感知训练)

高质量的训练数据对于视觉跟踪中的端到端表示学习的成功至关重要。我们引入了一系列策略来提高所学特征的概括性,并消除训练数据的不平衡分布。

image-20230325152917697

针对训练数据中的非语义背景和具有语义的干扰物背景的数据不平衡问题(就是简单背景样本太多了,而困难负样本太少),作者把 ImageNet 和 COCO 检测数据库中的数据也通过数据增广的方式做成 正样本对 来扩大训练数据集的种类,提高网络的泛化能力;在不同的类别中和相同类别中分别提取照片做为负样本,制造困难负样本,这篇文章中除了使用简单的转换,光线变换,还使用了运动方向模糊的方法(运动方向可以从低层特征得到),以此来提升跟踪器的判别能力。

  • **不同类别的正对可以促进泛化能力的提高。**最初的 SiamFC 是在 ILSVRC 视频检测数据集上进行训练的,该数据集仅包含约4,000个逐帧标注的视频。最近,SiamRPN 尝试使用稀疏标记的 YouTube-BB视频数据集。它由20多万个视频组成,每30帧标注一次。在这两种方法中,目标训练数据对来自同一视频中的不同帧。然而,这些视频检测数据集只包含很少的类别(VID20个,YouTube-BB30个),这不足以训练高质量和通用的Siamese跟踪特征。此外,SiamRPN 中的包围盒回归分支在遇到新的类别时可能会得到较差的预测。由于视频标注费时费力,本文通过引入大规模的 ImageNet Detection和COCO Detection数据集,极大地扩展了正对的类别。如图2(a)所示,通过平移、调整大小、灰度等增强技术,可以利用检测数据集中的静态图片生成用于训练的图像对。正对的多样性可以提高跟踪器的判别能力和回归精度。
  • **语义负对可以提高辨别能力。**我们将 SiamFC 和 SiamRPN 中差别较小的表示归因于训练数据分布两方面的不平衡。第一个失衡是较少的语义负对。由于在 SiamFC 和 SiamRPN 的训练数据中,背景占据了大部分,所以大多数负样本是非语义的 (不是真实对象,只是背景),而且它们很容易分类。也就是说,SiamFC 和 SiamRPN 学习了前景和背景之间的差异,语义对象之间的损失被大量简单的负样本对所淹没。另一个不平衡来自类内干扰项,它们在跟踪过程中通常表现为困难的负样本。本文将语义负样本对加入到训练过程中。所构造的负对由同一类别和不同类别的标记目标组成。来自不同类别的负对可以帮助跟踪器在有挑战性的场景如视线外、遮挡等时,避免发生漂移。而来自相同类别的负对使跟踪器专注于细粒度表示。
  • **为视觉跟踪定制有效的数据增强。**为了充分发挥Siamese网络的潜力,我们定制了几种数据增强策略进行训练。除了常见的平移、尺度变化和光照变化外,我们观察到网络中的浅层可以很容易地对运动模式进行建模。我们在数据增强中引入了运动模糊。

3.3、Distractor-aware Incremental Learning(干扰感知增量学习)

image-20230325155115954

上面小节的训练策略可以显著提高离线训练过程中的辨别力。但是,仍然很难区分具有类似属性的两个对象,如图3A。SiamFC 和 SiamRPN 使用余弦窗口来抑制干扰。当物体运动混乱时,不能保证性能。现有的大多数基于Siamese网络的方法在快速运动或背景杂乱的情况下性能较差。综上所述,潜在的缺陷主要是由于一般的表示域和特定的目标域的不对齐造成的。在这一部分中,我们提出了一种干扰感知模块来有效地将一般表示转移到视频域。

Siamese跟踪器会学习一个相似度函数 f ( z , x ) f(z,x) f(z,x) ,在内嵌空间 φ \varphi φ中比较样本图片 z z z 和候选 x x x

image-20230325155413228

其中 ⋆ \star 表示两个特征图之间的互相关性, b ⋅ 1 b\cdot\mathbb{1} b1 表示每个位置的偏置。选择最相似的样本对象作为目标。

DaSiamRPN 中采用非最大抑制(Non Maximum Suppression ,NMS)选择每帧潜在干扰 d i d_i di ,然后收集一个干扰项集合 D : = ∀ d i ∈ D , f ( z , d i ) > h ∩ d i ≠ z t , D := {∀di ∈ D, f (z, di) > h ∩ d_i \neq z_t}, D:=diD,f(z,di)>hdi=zt, 其中, h h h 是预定义的阈值, z t z_t zt是第 t t t 帧的目标,集合大小为$∣D∣ = n $。具体的,在每一帧我们首先得到 17 × 17 × 5 17\times 17\times 5 17×17×5的候选块,然后使用NMS去除冗余候选。对于剩下的候选,大于阈值的那些选为干扰。之后,引入一个新的干扰感知目标函数,对前 k k k 相似度候选集 P P P 重排序。最后选定的目标表示为 q q q

image-20230325160043944

权重因子$ \hat{\alpha}$ 控制干扰学习(distractor learning)的影响。 α i \alpha_i αi 控制每个干扰 d i d_i di 的影响。值得注意的是,直接计算的复杂度和内存开销会增加 n n n 倍 。因为式(1)是线性操作,可以利用这个特性加速:

image-20230325160258966

这样运行速度就跟 SiamRPN 相当。将跟踪当前帧作为一个增量学习过程,利用前面帧的信息来学习到当前帧的目标,就使得跟踪模板是在线更新的,可以处理很多目标严重遮挡,目标表观变化等问题,这个结合律也启发我们以学习率 β t \beta_t βt 渐进地学习目标模板和干扰模板:

image-20230325160405311

3.4、DaSiamRPN for Long-term Tracking

针对第三个不能长时跟踪的问题:本文提出了 local-to-global 的策略来进行长时间跟踪。

该策略的提出是在前两个改进的基础上提出的,是层层递进的关系,通过训练数据的增强和干扰物识别模型的提出,模型的判别能力已经很强了,这样在目标全遮挡时才可以扩大搜索区域,因为一扩大搜索区域,干扰物势必增多,如果没有前面的两个改进进行铺垫,肯定会把假目标当成真目标。

image-20230325160846483

在这一部分中,对DaSiamRPN框架进行了扩展,使其适用于长时跟踪。除了短时跟踪中具有挑战性的情况外,严重的失视和完全遮挡给长时跟踪带来了额外的挑战,如图4所示。短时跟踪中的搜索区域(SiamRPN)在目标重新出现时不能覆盖目标,因此无法跟踪后续帧。我们提出了一种简单高效的短时跟踪阶段和失败情况的切换方法,失败时,设计一个迭代的局部到全局搜索策略来重新检测目标。

为了进行切换,需要识别出跟踪失败的开始和结束。由于干扰感知训练和推理能够获得高质量的检测分数,因此可以用它来表示跟踪结果的质量。图4示出了SiamRPN和DaSiamRPN中的检测分数和相应的跟踪结果。SiamRPN即使在视野之外和完全遮挡的情况下,仍可获得较高的检测分值。也就是随便找了个目标,导致发生漂移。在DaSiamRPN中,检测分数成功地指示了跟踪状态。

在失败情况下,通过局部到全局策略逐步扩大搜索区域,搜索步长以一个固定值递增。如图4所示。跟踪器使用包围盒回归检测目标,摒弃耗时的图像金字塔策略。DaSiamRPN在长时跟踪基准上可以达到110FPS。

SiamRPN的score只是表示是否找到前景,而本文的score能准确表示是否找到正确目标。所以当score比较小的时候,就扩大搜索框,直到找到目标。(这边搜索框的大小表示卷积操作在图片上扫的区域,因为在视频中两帧之间目标不会有很大的变化)。

4、Experiments

5、Conclusions

提出了一个分散注意力的Siamese框架,用于准确和长期的跟踪。在离线训练过程中,我们提出了一个分心器感知的特征学习方案,该方案可以显著提高网络的判别能力。在推理过程中,我们设计了一个新的分心器感知模块,有效地将一般的嵌入转移到当前的视频领域。此外,我们通过引入一个简单而有效的局部到整体的搜索策略,将所提出的方法扩展到长期跟踪。在短期和长期视觉跟踪基准的综合实验中,所提出的跟踪器获得了最先进的准确性,而整个系统的速度仍然远远没有达到实时性

一般的嵌入转移到当前的视频领域。此外,我们通过引入一个简单而有效的局部到整体的搜索策略,将所提出的方法扩展到长期跟踪。在短期和长期视觉跟踪基准的综合实验中,所提出的跟踪器获得了最先进的准确性,而整个系统的速度仍然远远没有达到实时性

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值