CVPR2019:无监督深度追踪

在这里插入图片描述

本文提出了一种无监督视觉跟踪方法。与使用大量带注释数据进行监督学习的现有方法不同,本文的CNN模型是在无监督的大规模无标签视频上进行训练的。动机是,强大的跟踪器在向前和向后预测中均应有效(即,跟踪器可以在连续帧中向前定位目标对象,并在第一个帧中回溯到其初始位置)。在Siameses相关过滤器网络上构建框架,该网络使用未标记的原始视频进行训练。同时提出了一种多帧验证方法和一种对成本敏感的损失,以促进无监督学习。由于没有bells & whistles,本文的无监督跟踪器可达到完全受监督的在训练过程中需要完整且准确的标签的跟踪器的基线精度。此外,无监督框架在利用未标记或标记较弱的数据以进一步提高跟踪准确性方面具有潜力。

1.引言

视觉跟踪是计算机视觉中的一项基本任务,该任务旨在在给定第一帧的边界框注释的情况下将视频中的目标对象定位。最新的深度跟踪方法通常使用预训练的CNN模型进行特征提取。这些模型以受监督的方式进行训练,需要大量带注释的真实情况的标签。手动注释总是昂贵且费时的,而大量未标记的视频很容易在Internet上找到。值得研究如何利用未标记的视频序列进行视觉跟踪。

最新的深度跟踪方法
Luca Bertinetto, Jack Valmadre, Jo˜ao F Henriques, Andrea
Vedaldi, and Philip HS Torr. Fully-convolutional siamese
networks for object tracking. In ECCV, 2016.
Boyu Chen, Dong Wang, Peixia Li, Shuang Wang, and
Huchuan Lu. Real-time’actor-critic’tracking. In ECCV,
2018.
Anfeng He, Chong Luo, Xinmei Tian, and Wenjun Zeng. A
twofold siamese network for real-time object tracking. In
CVPR, 2018.
Ilchae Jung, Jeany Son, Mooyeol Baek, and Bohyung Han.
Real-time mdnet. In ECCV, 2018.
Bo Li, Junjie Yan, Wei Wu, Zheng Zhu, and Xiaolin Hu.
High performance visual tracking with siamese region pro-
posal network. In CVPR, 2018.
Wenhan Luo, Peng Sun, Fangwei Zhong, Wei Liu, Tong
Zhang, and Yizhou Wang. End-to-end active object track-
ing and its real-world deployment via reinforcement learn-
ing. TPAMI, 2019.
Wenhan Luo, Junliang Xing, Anton Milan, Xiaoqin Zhang,
Wei Liu, Xiaowei Zhao, and Tae-Kyun Kim. Multi-
ple object tracking: A literature review. arXiv preprint
arXiv:1409.7618, 2014.
Ran Tao, Efstratios Gavves, and Arnold WM Smeulders.
Siamese instance search for tracking. In CVPR, 2016.
Qiang Wang, Jin Gao, Junliang Xing, Mengdan Zhang, and
Weiming Hu. Dcfnet: Discriminant correlation filters net-
work for visual tracking. arXiv preprint arXiv:1704.04057,
2017.
Qiang Wang, Zhu Teng, Junliang Xing, Jin Gao, Weiming
Hu, and Stephen Maybank. Learning attentions: Residual
attentional siamese network for high performance online vi-
sual tracking. In CVPR, 2018.
Tianyu Yang and Antoni B Chan. Learning dynamic memory
networks for object tracking. In ECCV, 2018.
Yunhua Zhang, Lijun Wang, Jinqing Qi, Dong Wang,
Mengyang Feng, and Huchuan Lu. Structured siamese net-
work for real-time visual tracking. In ECCV, 2018.

本文提出通过无监督学习从头开始学习视觉跟踪模型。本文的启发是基于可以以向前和向后的方式执行视觉跟踪。最初,给定目标对象在第一帧上的注释,可以在后续帧中向前跟踪目标对象。向后跟踪时,将最后一帧中的预测位置用作初始目标注释,并将其向后跟踪到第一帧。通过反向跟踪在第一帧中估计的目标位置与初始注释相同。在测量了向前和向后目标轨迹之间的差异之后,通过考虑如图1所示的轨迹一致性以无监督的方式训练网络。通过利用未标记视频中的连续帧,模型学习通过重复执行来定位目标前向跟踪和后向验证。

在这里插入图片描述

图1 有监督和无监督学习之间的比较。通过监督学习的视觉跟踪方法需要训练视频每一帧的真实情况的标签。通过使用前向跟踪和后向验证,训练了没有重量级注释的无监督跟踪器。

所提出的无监督学习方案旨在获取通用特征表示,而并非严格要求跟踪完整对象。对于视频序列,在第一帧中随机初始化一个边界框,该边界框可能不会覆盖整个对象。然后,提出的模型将按照以下顺序学习跟踪边界框区域。这种跟踪策略与基于部分或基于边缘的跟踪方法具有相似性,后者专注于跟踪目标对象的子区域。由于视觉对象跟踪器不会只专注于完整的对象,因此使用随机裁剪的边界框来跟踪训练。

基于部分的跟踪方法
Si Liu, Tianzhu Zhang, Xiaochun Cao, and Changsheng Xu.
Structural correlation filter for robust visual tracking. In
CVPR, 2016.
基于边缘的跟踪方法
Feng Li, Yingjie Yao, Peihua Li, David Zhang, Wangmeng
Zuo, and Ming-Hsuan Yang. Integrating boundary and center
correlation filters for visual tracking with aspect ratio varia-
tion. In ICCVWorkshop, 2017.

将本文的无监督学习整合到基于Siamese的相关过滤器框架中。网络在训练过程中包括两个步骤:前向跟踪后向验证。向后验证并不总是有效的,因为跟踪器可能会成功地从偏转或错误的位置返回到初始目标位置。另外,未标记视频中的严重遮挡之类的障碍将降低网络表示能力。为了解决这些问题,本文提出了多帧验证对成本敏感的损失,从而在无监督的训练中获益。多帧验证增加了前向轨迹和后向轨迹之间的差异,以减少验证失败。同时,对成本敏感的损失减轻了训练期间噪声样本的干扰。

基于Siamese的相关过滤器框架
Qiang Wang, Jin Gao, Junliang Xing, Mengdan Zhang, and
Weiming Hu. Dcfnet: Discriminant correlation filters net-
work for visual tracking. arXiv preprint arXiv:1704.04057,
2017.

所提出的无监督跟踪器在基准数据集上显示有效。大量的实验结果表明,在没有bells & whistles的情况下,本文的无监督跟踪器可实现与基线完全监督跟踪器相当的性能。当与其他改进(例如自适应在线模型更新)集成在一起时,所提出的跟踪器将展现出最先进的性能。这种无监督的框架显示了利用未贴标签的Internet视频学习良好的特征表示以跟踪场景的潜力。在标签有限或嘈杂的情况下,无监督方法与相应的监督框架相比具有可相当的结果。此外,通过使用更多未标记的数据进一步提高了跟踪准确性。下面的章节对不同训练配置进行完整分析。

自适应在线模型更新
Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, and
Michael Felsberg. Eco: Efficient convolution operators for
tracking. In CVPR, 2017.
Martin Danelljan, Gustav H¨ager, Fahad Shahbaz Khan, and
Michael Felsberg. Adaptive decontamination of the training
set: A unified formulation for discriminative visual tracking.
In CVPR, 2016.

本文的工作有三方面的贡献:
•提出了一种基于Siamese相关滤波器主干的无监督跟踪方法,该方法是通过向前和向后跟踪学习的。
•提出了一种多帧验证方法和一种对成本敏感的损失,以改善无监督学习性能。
•在标准基准上进行的广泛实验显示了所提出方法的良好性能,并揭示了视觉跟踪中无监督学习的潜力。

2.方法

图2(a)显示了Butterfly序列的一个示例,用于说明向前和向后的跟踪。 实际上在未标记的视频中随机绘制边界框以执行向前和向后跟踪。 给定一个随机初始化的边界框标签,首先跟踪以预测其在后续帧中的位置。然后,反转序列,并以最后一帧中的预测边界框作为伪标签向后跟踪。 通过后向跟踪预测的边界框应与第一帧中的原始边界框相同。使用网络训练的一致性损失来测量前后轨迹之间的差异。 图2(b)显示了所提出的无监督Siamese相关滤波器网络的概述。在下面的内容中,首先回顾基于相关过滤器的跟踪框架,然后详细说明本文的无监督深度跟踪方法。

在这里插入图片描述

图2 无监督深度跟踪概述。 在(a)中显示出本文的动机,即向前和向后跟踪以计算网络训练的一致性损失。 (b)中显示了详细的训练过程,其中无监督学习已集成到Siamese相关过滤器网络中。 在线跟踪期间,仅向前跟踪以预测目标位置。

2.1回顾相关跟踪

判别相关滤波器(DCF)将搜索补丁的输入特征回归到高斯响应图以进行目标定位。训练DCF时,选择带有真实标签Y的模板补丁X。可以通过解决岭回归问题来了解过滤器W,如下所示:

在这里插入图片描述

判别相关滤波器
David S Bolme, J Ross Beveridge, Bruce A Draper, and
Yui Man Lui. Visual object tracking using adaptive corre-
lation filters. In CVPR, 2010.
Jo˜ao F Henriques, Rui Caseiro, Pedro Martins, and Jorge
Batista. High-speed tracking with kernelized correlation fil-
ters. TPAMI, 37(3):583–596, 2015.

其中λ是正则化参数,*表示圆卷积。公式1可以在傅立叶域中有效地计算,而DCF可以通过

在这里插入图片描述

傅立叶域
David S Bolme, J Ross Beveridge, Bruce A Draper, and
Yui Man Lui. Visual object tracking using adaptive corre-
lation filters. In CVPR, 2010.
Martin Danelljan, Gustav H¨ager, Fahad Khan, and Michael
Felsberg. Accurate scale estimation for robust visual track-
ing. In BMVC, 2014.
Jo˜ao F Henriques, Rui Caseiro, Pedro Martins, and Jorge
Batista. High-speed tracking with kernelized correlation fil-
ters. TPAMI, 37(3):583–596, 2015.

其中是 ⊙ \odot 元素乘积, F ( ) F() F()是离散傅里叶变换(DFT), F − 1 ( ⋅ ) F^{-1}(·) F1是逆DFT, ⋆ \star 表示复共轭运算。在每个后续帧中,给定搜索补丁Z,可以在傅立叶域中计算对应的响应图R:

在这里插入图片描述

上面的DCF框架从使用模板补丁X学习目标模板W开始,然后将W与搜索补丁Z结合在一起以生成响应。 最近,Siamese相关过滤器网络将DCF嵌入到Siamese框架中,并构造了两个共享权重分支,如图2(b)所示。 第一个是模板分支,它将模板补丁X作为输入并提取其特征以通过DCF进一步生成目标模板。第二个是搜索分支,它以搜索补丁Z作为特征提取的输入。然后将目标模板与搜索补丁的CNN特征进行卷积以生成响应图。Siamese DCF网络的优势在于,特征提取CNN和关联过滤器都被制定为端到端框架,因此,学习到的特征与视觉跟踪场景更加相关。

2.2 无监督学习原型

给定两个连续的帧 P 1 P_1 P1 P 2 P_2 P2,分别裁剪模板并从中搜索补丁。通过进行前向跟踪和后向验证,所提出的框架不需要在监督训练中使用真实标签。 P 1 P_1 P1中初始边界框和预测边界框之间的差异将为网络学习制定一致性损失。

前向跟踪 建立一个Siamese 相关过滤器网络,以跟踪帧 P 1 P_1 P1中的初始边界框区域。从第一帧 P 1 P_1 P1裁剪模板补丁T之后,相应的目标模板 W T W_T WT可以计算为:

在这里插入图片描述

其中 ϕ θ ( ⋅ ) ϕ_θ(·) ϕ

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值