【论文学习】《Distractor-aware Siamese Networks for Visual Object Tracking》2018年 DaSiamRPN 干扰感知孪生网络实现目标跟踪

DaSiamRPN出自中科院自动化研究所,计算机视觉高地,与SiamRPN一同参加了VOT-18的比赛,VOT-18赢得了“VOT-18实时”挑战,进了名单。在“VOT-18长期”挑战赛中获得第二名。然而他属于SiamRPN改进一种,比SiamRPN稍复杂了一点,不那么优雅了,干扰感知、数据增强部分方法是大伙儿都可以复用的。

概述:

前面提到SiamFC通过端到端的孪生全卷积在多尺度下一次性计算出目标可能位置中心点;SiamRPN则是借鉴了优秀的RPN方法,一个分支输出候选框类别,同时,另一分支输出候选框边界坐标,从而因没有多尺度而减少计算耗时,精度大大提升了。SiamRPN主要探索的孪生与区域候选的结合,因此数据集上的优化并未涉及,另外具体任务是聚焦在短期跟踪上。DaSiamRPN则在SiamRPN基础进行了:1、引入有效的抽样策略来控制不平衡的样品分布。2、设计一种新颖的干扰感知模块来执行增量学习(将一般嵌入转移到当前视频域)。3、进行长期跟踪扩展。

我理解的名词解释:

非语义背景:不需要理解语义关系就可以辨别出前景的背景。比如:一个目标人物站在空旷或拥挤的马路上,你不需要怎么思考和理解,立马能找到和定位目标人物。

语义背景:了解了非语义背景,那么就很容理解语义背景,相反的。比如:一群人在过马路,你要定位目标人物,你可能需要进一步的语义信息,比如:穿白色上衣的是目标或男的是目标,需要利用一些语义信息才能把目标区分出来。此时,除目标人物意外的人,都是语义背景,是干扰。

【一、翻译部分】

摘要

最近,孪生网络因其平衡的准确性和速度而在视觉跟踪社区中引起了极大的关注。然而,大多数孪生跟踪方法中使用的特征只能区分前景和非语义背景。语义背景始终被视为干扰因素,这阻碍了孪生跟踪器的鲁棒性。在本文中,我们专注于学习干扰感知的孪生网络以实现准确和长期的跟踪。为此,首先分析了传统孪生跟踪器中使用的特征。我们观察到训练数据的不平衡分布使得学习到的特征缺乏判别力。在离线训练阶段,引入了一种有效的采样策略来控制这种分布并使模型专注于语义干扰因素。在推理过程中,设计了一个新颖的干扰感知模块来执行增量学习,可以有效地将一般嵌入转移到当前视频域。此外,我们通过引入一种简单但有效的局部到全局搜索区域策略扩展了所提出的长期跟踪方法。大量基准测试表明,我们的方法明显优于最先进的方法,在 VOT2016 数据集中获得了 9.6% 的相对增益,在 UAV20L 数据集中获得了 35.9% 的相对增益。所提出的跟踪器在短期基准测试中可以达到 160 FPS,在长期基准测试中可以达到 110 FPS。 

关键词:视觉跟踪,干扰感知,孪生网络

1 引言

视觉目标跟踪是在变化的视频序列中自动定位指定目标,是视觉分析、自动驾驶和姿态估计等许多计算机视觉主题中的一个基本问题。跟踪的核心问题是如何在具有遮挡、视野外、变形、背景杂乱等变化的具有挑战性的场景中准确有效地检测和定位对象[38]。

最近,采用相似性比较策略进行跟踪的孪生网络因其良好的性能而在视觉跟踪社区中引起了极大的关注[31, 8, 2, 36, 33, 7, 37, 16]。SINT[31]、GOTURN[8]、SiamFC[2] 和RASNet[36]学习先验深度孪生相似度函数并在运行时固定使用它。CFNet[33]和DSiam[7]可以分别通过运行平均模板和快速变换学习模块在线更新跟踪模型。SiamRPN[16]在孪生网络之后引入了区域候选网络,从而将跟踪制定为单样本局部检测任务。

虽然这些跟踪方法获得了平衡的精度和速度,但仍有3个问题需要解决:首先,大多数孪生跟踪方法中使用的特征只能区分前景和非语义背景。语义背景始终被视为干扰因素,当背景混乱时无法保证性能。其次,大多数孪生跟踪器无法在线更新模型[31, 8, 2, 36, 16]。虽然它们的简单性和固定模型特性可以提高速度,但这些方法失去了在线更新外观模型的能力,而这通常对于解释跟踪场景中剧烈的外观变化至关重要。第三,最近的孪生跟踪器采用局部搜索策略,无法处理完全遮挡和视野外的挑战。

图1:孪生网络追踪器响应热力图的可视化。 (a) 显示搜索图像。 (b-e) 显示由SiamFC、SiamRPN、SiamRPN+(使用干扰项训练)和DaSiamRPN生成的热力图。

在本文中,我们探索学习干扰感知孪生区域候选网络(DaSiamRPN)以实现准确和长期的跟踪。SiamFC使用加权损失函数来消除正例和负例的类别不平衡。然而,它效率低下,因为训练过程仍然由容易分类的背景示例主导。在本文中,我们发现训练数据中非语义背景和语义干扰项的不平衡是表示学习的主要障碍。如图1所示,SiamFC上的响应图无法区分人,即使身穿白色衣服的运动员也能与目标人物有很高的相似度。高质量的训练数据对于端到端学习跟踪器的成功至关重要。我们得出结论,表示网络的质量在很大程度上取决于训练数据的分布。除了从现有的大规模检测数据集中引入正例对之外,我们还在训练过程中明确生成不同的语义负例对。为了进一步鼓励区分,我们开发了一种针对视觉跟踪定制的​​有效数据增强策略。

经过离线训练后,表示网络可以很好地推广到大多数类别的物体,从而可以跟踪一般目标。在推理过程中,经典的孪生跟踪器仅使用最近邻搜索来匹配正模板,当目标发生显著的外观变化和背景混乱时,这种方法可能会表现不佳。特别是,如果环境中存在相似的物体(干扰物),则跟踪任务更加艰巨。为了解决这个问题,周围的环境和时间信息可以提供有关目标的额外线索,并有助于最大限度地提高辨别能力。本文设计了一种新颖的干扰物感知模块,它可以有效地将一般嵌入转移到当前视频域,并在推理过程中逐步捕捉目标外观变化。

此外,大多数最新的跟踪器都是针对短期场景量身定制的,其中目标物体始终存在。这些工作仅关注几十秒的短序列,不能很好地代表从业者的需求。除了短期跟踪中的挑战性情况外,严重的视野外和完全遮挡也会给长期跟踪带来额外的挑战。由于传统的孪生跟踪器缺乏判别特征并采用局部搜索区域,因此无法应对这些挑战。受益于DaSiamRPN中学习到的干扰感知特征,我们通过引入一种简单而有效的局部到全局搜索区域策略,扩展了所提出的长期跟踪方法。这显著提高了我们的跟踪器在视野外和完全遮挡挑战中的表现。

我们在大量短期和长期跟踪基准上验证了DaSiamRPN框架的有效性:VOT2016[14]、VOT2017[12]、OTB2015[38]、UAV20L和 UAV123[22]。在短期VOT2016数据集上,与排名第一的方法ECO[3]相比,DaSiamRPN在预期平均重叠方面实现了9.6%的相对增益。在长期UAV20L数据集上,DaSiamRPN的曲线下面积获得了61.7%,比目前表现最好的跟踪器高出35.9%。除了良好的性能之外,我们的跟踪器还可以以远超实时速度运行:短期数据集上为160FPS,长期数据集上为110FPS。所有这些持续的改进表明,所提出的方法在视觉跟踪领域建立了新的最先进水平。

1.1 贡献

本文的贡献可以概括为以下三个方面:1、详细分析了传统孪生跟踪器所使用的特征。我们发现训练数据中非语义背景和语义干扰项的不平衡是学习的主要障碍。2、我们提出了一种新颖的干扰项感知孪生区域候选网络(DaSiamRPN)框架,以在离线训练中学习干扰项感知特征,并在在线跟踪推理期间明确抑制干扰项。3、我们通过引入一种简单而有效的局部到全局搜索区域策略来扩展 DaSiamRPN以执行长期跟踪,这显着提高了我们的跟踪器在视野外和完全遮挡挑战中的性能。在短期和长期视觉跟踪基准的综合实验中,提出的DaSiamRPN框架获得了最先进的精度,同时性能远超实时速度。

2 相关工作

未完待续~

  • 13
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值