每周一篇 文献阅读—paper13

译文

摘要

在本文中,我们演示了一种新的算法,该算法使用椭圆拟合来估计边界框的旋转角度和大小,并在目标上进行分割(掩模)以进行在线和实时视觉对象跟踪。 我们的方法SiamMask E改进了最先进的对象跟踪算法SiamMask的边界框设置过程,并且在配备GPU(GeForce GTX 1080 Ti或更高)的系统上仍然保留了快速跟踪帧速率(80 fps)。 我们在可视对象跟踪数据集(VOT2016,VOT2018和VOT2019)上测试了我们的方法,这些数据集使用的是旋转的边界框进行的标记。 通过与原始SiamMask的比较,我们在VOT2019上准确度提高了64.5%和30.3%EAO,比原来的SiamMask高出4.9%和2%。 我们的项目网站是http://jtl.lassonde.yorkuCA/2019/07/siammask_e/

引言

视觉对象跟踪是许多应用程序的重要元素,例如person-following机器人([6],[5],[28],[15]),自动驾驶汽车([1],[7],[27] ,[4]),或监视摄像机([9],[20],[37],[36])等。此类系统的性能主要取决于可靠和有效的物体跟踪算法。 当摄像机在具有挑战性的情况下运行时,在线和实时跟踪物体尤为重要:照明,改变姿势,运动模糊,部分和完全遮挡等。这两个基本特征是human-robot交互(例如,跟随人的机器人)的核心要求。

为了解决视觉对象跟踪问题,已经开发了许多基准测试,例如对象跟踪基准测试(OTB50 [33]和OTB100 [34])和视觉对象跟踪挑战(VOT2016 [18],VOT2018 [16],VOT2019 [17]])。 在OTB数据集中,ground truth由轴对齐的边界框标记,而在VOT数据集中,使用旋转的边界框。 比较轴对齐的边界框和旋转的边界框,旋转的边界框包含最少量的背景像素[18]。 因此,具有旋转边界框的数据集具有比轴对齐边界框更紧密的封闭框。 同样,旋转的边界框在图像平面中提供对象的方向,方向信息可以进一步用于解决许多计算机视觉问题(例如,动作分类)。

尽管旋转边界框具有优势,但是估计边界框的旋转角度和比例是非常计算密集的。 许多研究人员开发了新算法来解决这个问题。 但是大多数都在跟踪速度或准确性方面存在局限性[14],[30]。 与此同时,完全卷积的连体网络[2]在对象跟踪领域变得流行。 然而,最初的Siamese网络并没有解决旋转问题。Wangetal等人(SiamMask)[32]的灵感来自Siamese网络的高级版本(SiamRPN [22],SiamRPN ++ [21])和广泛的图像数据集(Youtube-VOS [35],COCO [23],ImageNet [31]) 等)。 SiamMask能够预测目标上的分割掩模以进行跟踪,并实时(87 fps)找到最小区域旋转边界框。

在本文中,我们提出了一种新的高效旋转边界框估计算法,当给出一个对象的分割/掩模。 特别地,掩码由SiamMask生成。 关键问题是预测边界框的旋转角度。 受Fitzgibbon [8]描述的圆锥曲线问题的启发,我们尝试在mask上设置一个椭圆来计算旋转角度。 一旦知道了旋转角度,我们就可以在掩模上找到一个旋转的矩形。 我们的算法由两部分组成:(1)旋转角度估计,(2)尺度计算。第3节将会进行详细介绍。

本文的贡献可归纳为以下三个方面:
1.在用旋转的边界框标记的数据集上的实施新的state-of-the-art实时对象跟踪算法,例如VOT挑战系列(20152019)。
2.当给出分割/掩模时,快速新颖的旋转边界框估计算法。
3.由SenseTime视频情报研究团队编写的源代码2将作为附加包发布给PySOT 3。

该论文的结构如下。 第2节将简要介绍最相关的工作。 然后,我们将在第3节中详细描述我们的方法。 该算法的评估见第4节。 最后,第5节总结了论文并讨论了未来的工作。

相关工作

在本节中,我们将讨论基于Siamese网络的跟踪算法的历史以及产生旋转边界框的几个跟踪器。

基于Siamese网络的跟踪算法

2016年,Bertinetto等人 [2]提出了第一个基于Siamese网络的对象跟踪算法(SiamFC)。Siamese网络在数据集上离线训练,用于视频中的对象检测。网络的输入是两个图像,一个是示例图像z,另一个是搜索图像x。然后,从网络的输出生成密集响应图。 SiamFC学习并预测x中的区域与样本图像z之间的相似性。为了处理对象尺寸变化,SiamFC在目标的前一个位置的附近用五个尺度1.025 {2,1,0,1,2}来搜索对象。 因此,每帧将有5次向前传输。 SiamFC以大约58 fps的速度运行,这是最快的基于完全卷积网络(CNN)跟踪器,与2016年的在线培训和更新网络相比。

He等人[12]结合了Siamese网络(SA-Siam)的两个分支(语义网和外观网)来提高SiamFC的泛化能力。 对两个分支进行单独训练,然后组合两个分支以在测试时输出相似性分数。 S-Net是一个在图像分类数据集上预先训练的AlexNet [19]。 A-Net是一个SiamFC,它是根据视频数据集中的对象检测预先训练的。 S-Net提高了SA-Siam跟踪器的辨别能力,因为不同的对象激活了语义分支中的不同特征通道集。 由于两个分支的复杂性,SA-Siam在使用预训练模型进行跟踪时以50 fps运行。

通过用区域建议网络(RPN)修改原始的连体网[29],Li等人 [22]提出了一个Siamese区域建议网络(SiamRPN),用可变边界框估计目标位置。 SiamRPN的输出包含一组具有相应分数的anchor boxes。 因此,具有最佳分数的边界框被视为目标位置。 RPN的好处是降低传统Siamese网络(SiamFC,SA-Siam)的多尺度测试复杂性。 更新版本SiamRPN ++ [21]已于2019年发布。在处理速度方面,SiamRPN为160 fps,SiamRPN ++为35 fps。

与SiamFC,SA-Siam和SiamRPN产生轴对齐边界框不同,SiamMask [32]利用视频对象分割数据集的优势,训练了一个连体网来预测目标上的一组掩模和边界框。 使用旋转的最小边界矩形(MBR)以87fps的速度基于掩模估计边界框。 但是,MBR并不总是预测与ground truth边界框完全对齐的边界框(参见图1)。 尽管VOT2016中用于生成ground truth的相同边界框预测算法可以显着提高平均重叠精度,但运行速度降低到5 fps。 为了解决这个问题,我们在第3节提出了一种新方法,可以实时处理帧并获得更好的结果。

旋转的bounding box

除了Siamese网络跟踪器,Nebehay等人[25] (CMT)使用关键点匹配方法来缩放和旋转边界框。 但是,此跟踪器无法处理可变形对象。 [26]是CMT的新版本,处理速度降至11 fps。

Huaetal。[14] 提出一种建议选择方法(光学流[3]和霍夫变换[13])来筛选出很可能包含对象的位置和方向的一组组合。 然后,他们使用三个线索(检测信度,来自物体边缘和运动边界的物体度量)来确定哪个位置具有最高可能性。 但是,这种方法也无法实时运行(0.3 fps)。

Guoetal。[11] 通过在线更新构建结构正则化压缩跟踪(SCT)。 在检测阶段,SCT基于积分图像和四叉树分割对具有不同旋转角度的几个候选进行采样。 SCT在没有GPU的计算机系统上以15 fps运行。

最近,Rout等人[30]提出了一种旋转自适应跟踪方法。 作者假设旋转角度被限制在一个范围内(例如,±10°)。 但是,这种假设并不总是成立。 为了找到任意旋转角度,我们将在下一节介绍我们的方法。

本文方法

在最初的SiamMask [32]跟踪器中,Wang等人 比较了三种不同的边界框估计算法:min-max轴对齐矩形(Min-max),最小面积矩形(MBR)和最佳边界框[18](Opt)。由于计算负担,Opt无法实时执行(5fps)。 具有MBR的SiamMask是平均重叠精度方面的最先进的实时(87 fps)跟踪器。 尽管MBR比其他边界框估计算法表现更好,但它有一个弱点,即最小面积矩形不能代表mask的几何形状和点分布(见图2)。 因此,大多数估计的边界框的方向不正确。 在下面的小节中,我们将讨论另一种解决方案,以生成具有正确旋转角度和更紧凑尺寸的边界框。 我们的方法包括图3中的步骤。

旋转角度估计

为了估计旋转角度,我们采用了OpenCV3提供的 fitEllipse API,它使用最小二乘方案[10]来解决椭圆拟合问题。 该算法(b2ac)的代数距离具有二次约束,由fitzgibbon等人[8]描述。让我们表示以下术语(另请参见图4):
a - 半长轴
b - 半短轴
(xo,yo) - 椭圆的中心坐标
θ - 旋转角度

尺寸细化

在估计旋转角度θ和中心点(xo,yo)之后,我们需要计算2D旋转矩阵M:
在这里插入图片描述
一旦计算出旋转矩阵,我们就在椭圆的中心(xo,yo)上对分割/掩模应用旋转:让我们将掩模表示为一组点掩模(图3(a)中的洋红色),以及 旋转掩模为Mask0(图3(d)中的品红色)。
在这里插入图片描述
在此步骤之后,我们的目标是在最小 - 最大轴对齐边界框(图3(e)中的蓝色)和椭圆边界框(图3中的绿色)之间输出交点(图3(f)中的红色)(E))。 椭圆边界框是很小的,我们将其表示为G:
在这里插入图片描述
最小 - 最大轴对齐边界框表示为B:
在这里插入图片描述
可以使用以下等式计算交叉点边界框R(图3(f)中的红色):
在这里插入图片描述
然后,将R转换为多边形:
在这里插入图片描述
最后一步是使用旋转矩阵M的倒数将旋转的坐标转换回图像坐标。我们将输出边界框表示为R0(图3(g)中的红色):
在这里插入图片描述

改进(Ref)

正如图1第3行第2列,我们的边界框(绿色)并不像ground truth(蓝色)那么紧凑。 这个问题是因为SiamMask生成的面具包括了舞者的四肢。 为了解决这个问题,我们设计了一个改进程序,通过评估边缘穿过的掩模数量来缩小边界框的大小。 让我们将边的长度表示为α,并且在该边缘上的掩模的量是β。 我们设置了一个约束条件:
在这里插入图片描述
否则,边缘将逐渐向边界框中心移动(见图5)。 这个约束在第4节中由经验证明。

实验

在本节中,我们将在使用旋转边界框标记的数据集:VOT2016,VOT2018和VOT2019上评估我们提出的方法。

环境设置

为了提供公平的比较,我们使用相同的预训练Siamese网络模型和与[32]中的相同参数来测试我们的算法。 使用以下硬件在台式计算机上评估报告的数据:
• GPU: GeForce GTX 1080 Ti
• CPU: Intel Core i5-8400 CPU @ 2.80GHz×6
• Memory: 32 GB

评估方法

我们仅对VOT挑战系列(短期VOT2015-2019)进行评估,其中VOT2015具有与VOT2016相同的数据序列,VOT2017具有与VOT2018相同的序列。这三个数据集包含60个具有不同挑战情况的序列(例如,运动模糊,尺寸变化,遮挡,光照变化等)。据我们所知,VOT2015-2019是唯一用旋转边界框标记的对象跟踪数据集。我们还采用了监督跟踪评估方法,该方法在VOT2016 [18]中得到了应用:准确性(A),鲁棒性(R)和预期平均重叠(EAO)。准确度是成功跟踪目标时估计边界框和地面实况边界框之间的平均重叠。 Robustness测量跟踪器失去目标(失败)的次数与恢复的跟踪次数之间的比率。预期平均重叠(EAO)被视为VOT挑战中的主要测量。根据官方工具包,当估计的边界框与地面真实无关时,跟踪器将被重新初始化。五帧之后,跟踪器将使用地面实况边界框重新启动。

总体结果

表1显示了VOT2016,VOT2018和VOT2019数据集上最先进的基于Siamese的跟踪算法的结果比较。 我们的跟踪器SiamMask E with Ref在VOT2018数据集上具有0.648准确度和0.432 EAO,这是与其他Siamese跟踪器和VOT2018短期挑战赛获胜者相比较的最新技术[16]。 尽管SiamMaskOpt具有与我们类似的性能,但由于计算复杂性,SiamMask-Opt只能以每秒5帧的速度运行。 但是,我们的跟踪器能够以每秒80帧以上的速度实时处理。 同样,我们的追踪器也在VOT2019上形成了一个新的最先进的结果。

比较Ref的不同因子

我们在VOT2018上测试了我们的改进步骤(Ref)(3.3小节),其中有七个不同的值(见表2)。 这7个结果的数量,因子0.2的参数优于具有最高EAO(0.432)和良好准确度(0.648)的其他因素。 虽然参数因子0.1具有最佳鲁棒性(0.262),但因子0.2的参考值仅高1.9%。 因子0.35的参考值达到最高精度0.657,但其鲁棒性变得最差(0.290)。 因此,在3.3小节中为约束选择因子0.2。

消融研究

消融测试(消融研究,指通过移除某个模型或者算法的某些特征,来观察这些特征对模型效果的影响)结果如表3所示。在表中,SiamMask E是我们没有改进步骤的基线模型。我们在SiamMask E和SiamMask之间交换边界框方向,其中具有最小区域边界框角度的SiamMask E(SiamMask E + minABoxAngle)执行比基线SiamMask E更好。类似地,具有椭圆角度的SiamMask(SiamMask + ellipseAngle)优于原始SiamMask。通过向SiamMask和SiamMask E添加改进步骤(Ref),平均重叠精度显着增加。此外,我们修改了SiamMask E + Refwith the Original Minimum Area Bounding Box角度(SiamMask E + Ref + minABoxAngle)的边界框旋转,这导致主要测量EAO略微减小。它证明使用椭圆的角度可以提高VOT数据集的跟踪性能。另一方面,我们还测试SiamMask + Ref,将最小区域边界框的角度更改为椭圆的角度(SiamMask + ellipseAngle + Ref)。结果表明,在主要测量EAO上,SiamMask +椭圆Angle + Ref在VOT2018和VOT2019上也有一定程度的改进。总的来说,SiamMask E使用在SiamMask顶部的椭圆形设置改进了边界框的方向和比例,它具有与原始SimaMask相似的性能以及改进步骤(SiamMask + Ref)。并且,SiamMask Ewiththere fi nementstep(SiamMask E + Ref)优于消融研究表上的任何其他组合。

定性结果

为了分析改进,我们展示了在VOT2019 [17]数据集上计算的几个结果。 我们比较了最先进的算法SiamMask [32]和SiamRPN ++ [21]以及我们在图6中的方法SiamMask E。

结论

在本文中,我们更新了SiamMask跟踪器,以实现更高水平的最新性能。 我们的新追踪器SiamMask E保持80 fps的实时处理速度。 我们证明了使用椭圆拟合的边界框在更好的旋转角度和更严格的边界框尺度方面优于最小面积矩形边界框。 我们的结果显示了SiamMask网络跟踪模型的优势,使其能够胜过其他最先进的跟踪器。
未来的工作:我们的方法专注于一个有效的边界框改进算法。 在另一个方面,如果采用prope rmotion模型,我们相信结果可能会超过一个级别。 为了实现这一点,需要实时算法来区分相机的目标运动以便估计真实的目标运动。 同样,我们需要注意场景中的其他动态干扰物。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值