【论文翻译】Learning transform-aware attentive network for object tracking

最新推荐文章于 2023-07-08 12:02:10 发布

qq_35485289

最新推荐文章于 2023-07-08 12:02:10 发布

阅读量213

点赞数

文章标签：计算机视觉神经网络深度学习

原文链接：https://ieeexplore.ieee.org/document/8579033

版权

【论文翻译】Learning transform-aware attentive network for object tracking

用于目标跟踪的学习变换-感知注意力网络

摘要：现有的跟踪器通常将视觉跟踪的任务分解为多个独立的组件，例如目标外观采样，分类器学习和目标状态推断。在该论文中提出了一种可变换-感知注意力跟踪框架，该框架使用深度学习的注意力网络通过空间变换（STN）直接预测目标状态。在离线训练期间，论文提出网络从大量视频数据中学习目标对象的一般移动模式。然后将这些学到的移动模式应用于在测试集上跟踪目标对象。基于空间变换网络（STN）构建的注意力网络是完全可区分的，并且可以端到端的方式进行训练，而且仅在视频初始帧中微调了预训练网络。TAAT跟踪器在跟踪过程中既不需要在线模型更新也不需要外观采样。同时采取的non-local策略和注意力机制形成的glimpse减少了大量的计算负荷，在跟踪过程中舍弃了繁琐的采样阶段，它运行在每秒20.1帧左右。

一．介绍

随着社会对公共安全的重视和监控系统的完善，我们通过监控系统得到越来越多的视频数据和图像信息。但是通过人眼观看所有的视频来追踪某一个人，是非常低效的且会消耗大量人力物力资源。与此同时，计算机视觉领域技术不断发展，人们开始思考能否用计算机来代替人眼对图像或视频中的行人进行跟踪。
目标跟踪是计算机视觉中的一个基础问题，具有广泛的应用，包括人机交互、视频监控、交通监控等。通常，给定第一帧中目标对象的参考图像块，对象跟踪旨在预测后续帧中的目标状态，例如位置和比例。近年来，基于检测的跟踪方法取得了成功，这种方法逐步学习二元分类器来区分目标和背景。这种方法需要使用滑动窗口，或随机样本，或区域建议，在每个帧中生成大量样本。为了训练鉴别分类器，根据样本相对于前一帧中跟踪结果的重叠率分数，将样本分配给二进制标签。对于跟踪过程，分类器用于计算样本的置信度得分。置信度最高的样本表示跟踪结果。但是独立计算样本的置信度通常会导致沉重的计算负担，对于深度学习跟踪器来说，这种负担甚至更重。例如，最近提出的MDNet跟踪器的速度不到每秒一帧。为了避免抽取样本，另一种方法是学习相关滤波器。输出相关响应图可用于精确定位目标物体。然而，这种反应图很难意识到比例的变化。我们还注意到，相关滤波器严重依赖于逐步更新方案，这种方案是动态逐帧进行的。帧中的微小误差很容易聚集，从而降低所学习的相关滤波器的性能。
图1：三种不同的跟踪方案。（a）通过从图像中采样目标状态进行跟踪。（b）通过从响应图中推断目标状态进行跟踪(例如，基于相关滤波器的响应图)。（c）基于框架的跟踪。所提出的跟踪器建立在定制的空间转换器STN网络上，该网络将参考图像和搜索区域作为输入，并输出包含位置和比例信息的空间转换器参数作为跟踪结果。
图1：三种不同的跟踪方案。（a）通过从图像中采样目标状态进行跟踪。（b）通过从响应图中推断目标状态进行跟踪(例如，基于相关滤波器的响应图)。（c）基于框架的跟踪。所提出的跟踪器建立在定制的空间转换器STN网络上，该网络将参考图像和搜索区域作为输入，并输出包含位置和比例信息的空间转换器参数作为跟踪结果。

我们没有抽取大量样本来学习鉴别分类器或直接学习相关滤波器，而是利用一种新颖的框架以端到端的方式根据位置和尺度变化来推断目标状态(见图1)。我们从最近空间转换器STN以及学习深层神经网络的视觉注意机制中得到启发。一方面，空间变换网络学习平移、缩放、旋转和更一般的扭曲的不变性。因此，STN可以通过预测的变换参数向任务相关区域移动。利用这种不变性来估计目标对象的外观变化是很简单的。另一方面，现有的建立在深层神经网络上的集中跟踪方法，如Restricted Boltzmann Machine (RBM)和递归神经网络(RNN)不能处理空间变换。因此，位置和比例估计需要多个独立的组件。这项工作旨在学习一个统一的张力网络，通过空间转换器参数直接预测位置和规模的变化。
变换-感知注意网络(Transform-aware attentive tracking TAAT)是具有两个输入分支的Siamese匹配网络。我们持续地将第一帧中目标的基本事实输入到一个分支中，同时将图像帧依次输入到另一个分支中。每个分支由多个卷积层组成，以生成深层特征。然后，来自两个分支的特征被链接并馈送到输出空间转换器参数的完全连接的层中。所提出的网络更加关注目标对象可能所在的感兴趣区域。与传统的注意力跟踪方法相比，所提出的网络输出由空间变换器参数变换的注意力区域。我们在时间域和空间域都使用了数据扩充方案。输入到网络中。我们用L1损失函数进行约束来加速收敛。在跟踪过程中，我们使用这个预先训练好的网络来搜索帧。输出直接显示目标的移动状态以及输入图像的一小块glimpse。第3章介绍了网络架构。
这篇论文贡献总结如下三点:

通过将注意力机制集成到特定的空间转换网络中，我们提出了一种转换感知注意力网络用于目标跟踪。提议的网络以注意力机制关注感兴趣的区域，并且可以以端到端的方式进行训练。用一个L1损失函数约束使得该网络在训练阶段收敛速度快。
我们将视觉跟踪问题视为成对匹配。我们摆脱了繁琐的计算负荷大的抽样方案。并采取了一些高效策略，该算法取得了令人满意的跟踪速度20fps。
在流行的基准数据集VOT2014上进行的大量实验表明，与最先进的跟踪器相比，该算法具有良好的性能。

二．相关工作
视觉跟踪长期以来一直是一个活跃的研究领域，深度学习已经成为视觉跟踪的热门。我们简单地将相关的工作归纳为以下三个方面:
(1)通过对图像中的目标状态进行采样进行跟踪，传统的检测跟踪方法通常从前一帧中位置周围的大量候选采样中学习一个鉴别分类器。然后，学习的分类器用于计算当前帧中样本的置信度得分。因此，置信度最高的样本表示跟踪结果。这种策略在最近的深度追踪者中很流行。朱等人利用为目标检测而训练的区域建议来产生好的候选对象。请注意，生成大量样本不仅会带来沉重的计算负担，而且还会带来采样不确定性，即使用二进制标签分配空间相关样本。为了减少计算量，Tao等人采用了感兴趣区域(RoI)汇集技术。所提出的方法使用深度神经网络直接输出目标状态，而不是搜索数十或数百个采样的候选对象。结果表明，该算法成功地避免了繁琐的采样问题，实现了实时跟踪速度。
(2)通过从反应图中推断目标状态进行跟踪，近年来，人们已经成功地从反应图中推断出目标状态。最有代表性的方法是基于相关滤波器的跟踪器。关键思想在于:相关性过滤器可以被看作是一个模板，对目标对象的外观进行编码。相关响应表明目标模板和候选搜索结果之间的相似性。最大响应值的位置表示目标的位置。而且相关响应图也可以通过全卷积神经网络获得。王等在VGGNet生成深度特征的基础上开发了一个卷积子网络，输出置信度图。置信度图中最大值的位置用于识别下一帧中目标的位置。与这些只能从这些响应图中推断位置的方法不同，所提出的网络学习对空间变换的不变性，包括但不限于位置和比例。
(3)通过注意力模型进行跟踪，视觉注意机制模仿生物视觉系统，将有限的感知资源分配给兴趣或显著区域。视觉注意模型已被广泛用于改善视觉跟踪。最近，深度注意机制成为一个有吸引力的研究领域，并在各种任务中显示出巨大的优势，如目标识别，图像生成和细粒度分类。深度关注网络能够学习知道“在哪里”和“关注什么”。已经做出相当大的努力来训练视觉跟踪的注意力网络。受DRAW成功的启发，Kahou等人训练了一个时间递归神经网络(RNN)，以预测在后续帧中的跟踪位置。由于该模型仅使用从MNIST数据集生成的工具示例进行训练，因此在跟踪一般目标对象时不太可能表现良好。崔等人在空间多方向上建立了一个注意模块，对集成目标部分进行编码，并利用输出显著图计算不同部分的权重。然而，这种RNN是对每个跟踪结果进行增量训练的，因此它缺乏从大规模图像序列中挖掘复杂注意机制的能力。
我们开发了一个基于空间转换器网络的转换感知注意网络。我们的网络是完全可区分的，允许对大规模辅助序列进行端到端的训练。因此，所提出的跟踪器可以被教导从这些辅助序列中学习通用变换知识，并随后跟踪新的目标。