(C-RPN)Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking(CVPR2019)

Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

论文链接

翻译稿

提取码: 7m7x 

Abstract

RPN和孪生网络结合已经展现出良好的精度和效果。先前提出的单级孪生RPN跟踪算法存在类内干扰和大尺度变形的情况下退化。针对这些问题,我们提出了一个多阶段跟踪框架,即孪生级联RPN(C-RPN),它由孪生网络中从深高层到浅层的一系列RPN级联而成。与以前的解决方案相比,C-RPN具有以下几个优点:

(1)在前一阶段,使用RPN的输出对每个RPN进行训练。这样的过程促进了硬负样本采样,从而使训练样本更加平衡。因此,RPN在区分困难背景(即相似的干扰源)方面具有更高的识别性。

(2)通过一个新的特征转移块(ftb)对每个RPN充分利用多级特征,进一步提高了C-RPN利用高级语义信息和低级空间信息的识别能力。

(3)通过多步回归,C-RPN逐步完善了上一阶段通过调整锚箱对每个RPN中目标的位置和形状进行定位,使定位更加准确。C-RPN采用多任务丢失功能进行端到端的训练。在推论中,C-RPN是按原样部署的,没有任何时间自适应,用于实时跟踪。

在对OTB-2013、OTB-2015、VOT-2016、VOT-2017、LASOT和TrackingNet进行的大量实验中,C-RPN始终获得最先进的结果并实时运行。

1. Introduction

视觉跟踪是计算机视觉中最基本的问题之一,在机器人、人机交互、智能车辆、监控等领域有着广泛的应用。尽管近年来取得了很大的进展,但由于遮挡、尺度变化等诸多因素,视觉跟踪仍然具有挑战性。

图1。两个具有挑战性的序列:Bolt2(最上面一行)具有相似的干扰物和大尺度变化的Carscale(最下面一行)的单级RPN的SiamRPN[22]和多级RPN的C-RPN的比较。我们观察到C-rpn可以区分目标和干扰源,而Siam RPN则在bolt2中漂移到背景。此外,与在SiamRPN中使用单一回归相比,C-RPN中的多重回归能更好地定位目标,以防出现大规模的规模变化。最好用彩色观看。

 

近年来,孪生网络以其均衡的精度和速度在跟踪界引起了广泛的关注。通过将目标跟踪定义为匹配问题,孪生追踪算法[44,2,45,16,18,22,50,57]的目标是从大量视频中离线学习一个通用的相似度函数。在这些方法中,[22]的工作提出了一个单级的SiamRPN,通过将最初用于目标检测[37,28]的区域建议网络(RPN)引入孪生网络进行跟踪。该方法通过RPN提取候选区域(proposals),同时实现了多尺度的分类和定位,取得了良好的性能。此外,RPN的使用避免了将耗时的金字塔用于目标尺度估计[2],从而产生了超实时的解决方案。

1.1. Problem and Motivation

尽管取得了令人满意的结果,SiamRPN可能会向背景漂移,尤其是在存在类似语义干扰的情况下(见图1)。我们确定了两个原因。

首先,训练样本的分布不平衡:(1)正样本远小于负样本,导致孪生网络训练无效;(2)大多数负样本是简单的负样本(非相似的非语义背景),在学习区分分类器时几乎没有有用的信息[27]。因此,分类器主要由容易分类的背景样本控制,当遇到困难的相似语义干扰时,分类器性能会降低。

第二,低层次空间特征的探索还不够充分。在SiamRPN(和其他孪生网络的跟踪算法)中,只有最后一层包含更多语义信息的特征被用来区分目标/背景。然而,在跟踪过程中,背景干扰源和目标可能属于相同的类别,并且/或者具有相似的语义特征[48]。在这种情况下,高级语义特征在区分目标/背景方面的识别性较低。

除了上述问题外,单级SiamRPN还为目标定位应用了一个回归,即预先定义的锚点。当与目标有很高的重叠时,这些框应该可以很好地工作。然而,对于无模型视觉跟踪来说,目标对象的先验信息是未知的,很难估计目标的尺度是如何变化的。在单步回归中使用预先定义的粗糙锚点不足以精确定位[14,3](请参见图1)。

在两级目标检测算法中解决了类别不平衡问题(例如,FasterR-CNN[37])。第一个proposal阶段快速过滤掉大部分背景样本,第二个分类阶段采用抽样启发式方法,例如固定的比率,以保持前景和背景之间的可管理平衡。此外,两步的回归实现了精确的局部化,即使是对具有极端形状的对象。

在两级检测算法的启发下,我们提出了一种多级跟踪框架,通过级联一系列RPN来解决类不平衡问题,同时充分挖掘跨层特征,实现稳健的视觉跟踪算法。

1.2. Contribution

作为第一项贡献,我们提出了一种新的多阶段跟踪框架,即孪生级联RPN(C-RPN),通过执行硬负样本抽样来解决阶级失衡问题[47,39]。C-RPN由一系列rpn组成,这些RPN从孪生网络的高层层叠到底层。在每个阶段(级别),一个RPN执行分类和定位,并在此阶段输出锚点的分类分数和回归偏移量。然后过滤掉简单的负样本被舍弃,剩下的作为难以区分的负样本处理,作为下一阶段RPN的训练样本。通过这一过程,C-RPN实现了逐级难区分负样本采样。因此,训练样本的分布顺序更加平衡,RPN的分类器在区分更困难的干扰物时依次更具辨别力(见图1)。

C-RPN的另一个好处是,与单阶段SiamRPN相比,目标定位更准确[22]。C-RPN不是在单一回归步骤中使用预先定义的粗糙锚点,而是由多个RPN引起的多个重回归步骤组成。在每个阶段,锚点(包括位置和尺寸)都由Regressor进行调整,为下一阶段的回归器提供更好的初始化。因此,C-RPN逐步重新细化目标边界框,从而实现更好的定位,如图1所示。

神经网络工作中不同层次的杠杆功能已被证明有利于提高模型的可辨别性[29、25、26]。为了充分挖掘视觉跟踪的高层次语义特征和低层次空间特征,我们通过指定一个新的特征转移块(FTB)来做出第二个贡献。FTB不需要在一个RPN中单独使用一个层的特性,而是可以将高级特性融合到低级RPN中,进一步提高了其处理复杂背景的识别能力,从而提高了C-RPN的性能。图2说明了C-RPN的框架。

最后,也是最重要的一点,第三个贡献是实现了一个基于C-RPN的跟踪器。在六个基准benchmark上的广泛实验中,包括OTB-2013[51]、OTB-2015[52]、VOT-2016[19]、VOT-2017[20]、LASOT[10]和TrackingNet[33],我们的C-RPN始终表现出良好的结果和实时性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值