CVPR 2021 Learning Spatio-Temporal Transformer for Visual Tracking

动机
  1. 对于视觉目标跟踪,卷积核具有局部依赖而全局无关的缺陷。

    视觉目标跟踪是计算机视觉中的一个基础而又具有挑战性的研究课题。在过去的几年中,基于卷积神经网络的目标跟踪取得了令人瞩目的进展。然而,由于无论是在空间上还是在时间上卷积核只能处理一个局部邻域,因此不能很好地对图像内容和特征的长程关系进行建模。目前流行的跟踪器,包括离线Siamese跟踪器和在线学习模型,几乎都是建立在卷积运算基础上的。结果表明,这些方法只对图像内容的局部关系建模效果较好,而对长时全局交互的描述不能很好很好的建模。这种缺陷可能会降低模型在处理场景的能力,该场景中全局上下文信息对目标对象的局部化是非常重要的。例如目标经历大规模变化或频繁进出视图。

  2. transformer是全局依赖的,在视觉领域也有很大的发展。

    长时相互作用的问题已经通过transformer的使用在序列建模中得到解决。Transformer不仅在自然语言建模和语音识别等领域取得了巨大的成功。近年来,transformer在计算机视觉模型中的应用也得到了很大的发展。受最近的检测转换器(DETR)的启发,提出了一种新的端到端的编码器-解码器transformer跟踪结构,以提高传统卷积模型的性能。

  3. 时空信息的挖掘是目标跟踪领域的核心问题。

    空间信息和时间信息对目标跟踪都很重要。前者包含目标的外观信息,用于目标定位;后者包含目标在帧间的状态变化。以前的Siamese追踪器只将空间信息用于跟踪,而在线方法使用历史预测进行模型更新。现有的跟踪器可分为两类:纯空间跟踪器和时空跟踪器。大多数离线Siamese跟踪器都是纯空间跟踪器,它们将目标跟踪看作是初始模板与当前搜索区域之间的模板匹配。为了提取模板与搜索区域之间沿空间维度的关系,大多数跟踪器采用了相关的变体,包括朴素相关、深度相关和点相关。这些方法虽然在近几年取得了显著的进展,但仅仅是捕捉局部的局部信息,而忽略了全局信息。而transformer中的自我注意机制能够捕捉到长时关系,适合于配对匹配任务。与纯空间跟踪器相比,时空跟踪器增加了时间信息,提高了跟踪器的鲁棒性。这些方法也可以分为两类:基于梯度的方法和无梯度的方法。基于梯度的方法在推理过程中需要进行梯度计算。其中一个经典的作品是MD-Net,它以梯度下降的方式更新特定领域的层。为了提高优化效率,后面的研究采用了更先进的优化方法,如Gauss-Newton方法或基于元学习的更新策略。然而,许多部署深度学习的现实世界设备并不支持反向传播,这限制了基于梯度的方法的应用。相比之下,无梯度方法在实际应用中具有更大的潜力。一类无梯度方法利用一个额外的网络来更新Siam跟踪器的模板。另一个代表性的工作LTMU学习元更新器预判当前状态是否足够可靠,以用于长期跟踪中的更新。这些方法虽然有效,但却但并没有对空间和时间的关系进行显式建模,造成了时间与空间的分离。与此相反,本论文的方法将空间信息和时间信息整合为一个整体,并与transformer同时学习。

方法
简介

在这里插入图片描述

提出了一种用于视觉追踪的新的基

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值