Distractor-aware Siamese Networks for Visual Object Tracking(DaSiamRPN)

目标跟踪中对干扰项敏感的暹罗网络

摘要

最近,暹罗网络(Siamese network)因其平衡的准确性和速度而备受视觉跟踪领域的关注。但是,大多数暹罗跟踪方法中使用的特征只能区分前景和非语义背景。语义背景始终被视为干扰因素,这阻碍了暹罗跟踪器的稳健性。在本文中,我们着重于学习可识别干扰因素的暹罗网络,从而实现准确的长时间跟踪。为此,首先分析了传统暹罗跟踪器中使用到的特征。我们观察到训练数据的分布不平衡使得学习到的特征不具有好的描述性。在线下训练阶段,引入了有效的采样策略来控制分布,并使模型关注到语义干扰项。在推论过程中,设计了一种新颖的干扰敏感的,可以通用有效地嵌入到视频领域的模块来执行增量学习。此外,我们提出了简单而又有效的从局部到全局的区域搜索策略来进行长时间跟踪。在基准上进行的大量实验表明,我们的方法明显优于最新技术,在VOT2016数据集中的相对增益为9.6%,在UAV20L数据集中的相对增益为35.9%。提出的跟踪器可以160 FPS的速度执行短期基准,以110 FPS执行长期基准。
项目地址:https://github.com/foolwood/DaSiamRPN

关键词: 视觉跟踪,干扰敏感,暹罗网络

1 介绍

视觉目标跟踪,在变化的视频序列间自动定位目标。这是很多计算机视觉主题中的基础问题。例如视觉分析,自动驾驶和位姿估计。跟踪的核心问题是如何在具有挑战性的场景中准确有效地检测和定位对象,像
遮挡,移出视野,形变,背景杂乱等其他情况。

最近,通过比较相似度进行跟踪的暹罗网络由于其良好的性能,得到了极大的关注。 SINT,GOTURN ,SiamFC和RASNet 通过前期学习一个深度暹罗相似性函数,并将其在运行时用于固定模式。. CFNet和 DSiam可以在线更新跟踪模型通过分别运行一个平均模板和快速转换学习模型。SiamRPN 在暹罗网络后引入了待选区域网络从而将跟踪变为一个单样本局部检测任务。尽管这些跟踪方法获得了平衡的准确性和速度,但仍应该解决3个问题:首先,大多数暹罗跟踪方法只能将前景与非语义背景区分开。语义背景始终被视为干扰因素,并且当背景杂乱时性能无法保证。其次,大多数暹罗跟踪器不能更新模型,尽管它们的简单固定的模型带来了高速,这些方法丧失了在线更新模型外观的能力,而这对于跟踪场景急剧变化时往往很关键。最后,近期的暹罗跟踪器采用一个局部搜索策略,这没法应对全遮挡和移出视野等挑战。

在本文中,我们提出了通过学习对干扰物敏感的暹罗待选区域网络(DaSiamRPN),可进行准确的长期跟踪。 SiamFC使用加权损失函数消除了正负类的不平衡例子。但是,由于训练程序仍然以易于分类的背景示例为主,因此效率低下。在本文中,我们确定了训练中非语义背景和语义干扰因素的不平衡数据是表示学习的主要障碍。如图1所示SiamFC上的响应图无法区分人,即使穿着白色连衣裙的运动员也能与目标人保持高度相似性。高质量的训练数据对于端到端学习跟踪器的成功至关重要。我们得出结论,表示网络的质量在很大程度上取决于训练数据的分布。除了引入现有的大规模检测数据集的正样本,我们显式生成了多种语义训练过程中出现负样本。为了进一步增强判别,开发了针对视觉跟踪定制的​​有效数据增强策略。离线训练后,表示网络可以很好地推广到大多数类别的对象,这使得跟踪一般目标成为可能。在推理过程中,经典的暹罗跟踪器仅使用最近邻居搜索匹配正模板。当目标模板经历明显的外观变化和背景混乱,尤其,在上下文中存在相似外观的对象(干扰因素)使得跟踪任务更加艰巨。为了解决这个问题,周围的环境和时间信息可以提供有关目标的线索,并最大化辨别能力。在本文中,一种新颖的干扰敏感的DaSiameseRPN 3模块,可以有效地将嵌入转移到当前视频域并在推导过程中逐步捕获目标外观变化。

此外,最新的跟踪器是针对短期情况而量身定制的,面对长期跟踪,这些方法只专注于短片几十秒的时间序列,很难满足从业者的需要。除了短期跟踪中的挑战性情况外,严重移出视线和完全遮挡都会在长期跟踪中带来额外的挑战。一直以来传统的暹罗跟踪器缺乏判别特征,并采用局部搜索区域,他们无法应对这些挑战。受益于DaSiamRPN中学习到的干扰敏感特征,我们通过引入一种简单而有效的局部到全局搜索区域策略,拓展了长期跟踪方法。 这显着改善了我们的跟踪器在移出视野外和完全遮挡的挑战中的表现。
在这里插入图片描述

1.1 贡献

本文的贡献可以归纳为以下三个方面:
1,详细分析了传统暹罗跟踪器中使用的特征。发现非语义背景与语义干扰间的不平衡是学习训练数据的主要障碍。
2,我们提出了一个新颖的干扰敏感的暹罗待选区域网络(DaSiamRPN)框架来学习离线训练中的干扰敏感特征,并在在线跟踪过程中显式抑制干扰因素。
3,我们通过引入DaSiamRPN扩展了执行长期跟踪的能力,一个简单而有效的局部到全局搜索区域策略,改善了我们的跟踪器在视野外和完全遮挡挑战中的性能。 在短期和长期视觉跟踪基准的综合实验中,提出的DaSiamRPN框架获得了前排的准确性,而执行速度却已超前。

2 相关工作

暹罗网络为基础的跟踪

跟踪的特征

长期跟踪

3 干扰敏感暹罗网络

3.1 传统暹罗网络的特征和缺陷
3.2 干扰敏感的训练

不同类型的正样本对可以提高泛化能力
语义负样本对可以提高辨别能力
为视觉跟踪定制有效的数据增强

3.3 干扰敏感的增量学习
3.4 用于长期跟踪的DaSiamRPN

4 复现实验

平台:google colab

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值