每周一篇文献阅读—paper13

最新推荐文章于 2022-03-27 18:20:00 发布

XX|XX

最新推荐文章于 2022-03-27 18:20:00 发布

阅读量610

点赞数

分类专栏：文献阅读文章标签：深度学习

本文链接：https://blog.csdn.net/sinat_35779431/article/details/98481565

版权

Fast Visual Object Tracking with Rotated Bounding Boxes

译文

译文

摘要

在本文中，我们演示了一种新的算法，该算法使用椭圆拟合来估计边界框的旋转角度和大小，并在目标上进行分割（掩模）以进行在线和实时视觉对象跟踪。我们的方法SiamMask E改进了最先进的对象跟踪算法SiamMask的边界框设置过程，并且在配备GPU（GeForce GTX 1080 Ti或更高）的系统上仍然保留了快速跟踪帧速率（80 fps）。我们在可视对象跟踪数据集（VOT2016，VOT2018和VOT2019）上测试了我们的方法，这些数据集使用的是旋转的边界框进行的标记。通过与原始SiamMask的比较，我们在VOT2019上准确度提高了64.5％和30.3％EAO，比原来的SiamMask高出4.9％和2％。我们的项目网站是http://jtl.lassonde.yorkuCA/2019/07/siammask_e/。

引言

视觉对象跟踪是许多应用程序的重要元素，例如person-following机器人（[6]，[5]，[28]，[15]），自动驾驶汽车（[1]，[7]，[27] ，[4]），或监视摄像机（[9]，[20]，[37]，[36]）等。此类系统的性能主要取决于可靠和有效的物体跟踪算法。当摄像机在具有挑战性的情况下运行时，在线和实时跟踪物体尤为重要：照明，改变姿势，运动模糊，部分和完全遮挡等。这两个基本特征是human-robot交互（例如，跟随人的机器人）的核心要求。

为了解决视觉对象跟踪问题，已经开发了许多基准测试，例如对象跟踪基准测试（OTB50 [33]和OTB100 [34]）和视觉对象跟踪挑战（VOT2016 [18]，VOT2018 [16]，VOT2019 [17]]）。在OTB数据集中，ground truth由轴对齐的边界框标记，而在VOT数据集中，使用旋转的边界框。比较轴对齐的边界框和旋转的边界框，旋转的边界框包含最少量的背景像素[18]。因此，具有旋转边界框的数据集具有比轴对齐边界框更紧密的封闭框。同样，旋转的边界框在图像平面中提供对象的方向，方向信息可以进一步用于解决许多计算机视觉问题（例如，动作分类）。

尽管旋转边界框具有优势，但是估计边界框的旋转角度和比例是非常计算密集的。许多研究人员开发了新算法来解决这个问题。但是大多数都在跟踪速度或准确性方面存在局限性[14]，[30]。与此同时，完全卷积的连体网络[2]在对象跟踪领域变得流行。然而，最初的Siamese网络并没有解决旋转问题。Wangetal等人（SiamMask）[32]的灵感来自Siamese网络的高级版本（SiamRPN [22]，SiamRPN ++ [21]）和广泛的图像数据集（Youtube-VOS [35]，COCO [23]，ImageNet [31]）等）。 SiamMask能够预测目标上的分割掩模以进行跟踪，并实时（87 fps）找到最小区域旋转边界框。

在本文中，我们提出了一种新的高效旋转边界框估计算法，当给出一个对象的分割/掩模。特别地，掩码由SiamMask生成。关键问题是预测边界框的旋转角度。受Fitzgibbon [8]描述的圆锥曲线问题的启发，我们尝试在mask上设置一个椭圆来计算旋转角度。一旦知道了旋转角度，我们就可以在掩模上找到一个旋转的矩形。我们的算法由两部分组成：（1）旋转角度估计，（2）尺度计算。第3节将会进行详细介绍。

本文的贡献可归纳为以下三个方面：
1.在用旋转的边界框标记的数据集上的实施新的state-of-the-art实时对象跟踪算法，例如VOT挑战系列（20152019࿰