干货|(CVPR 2023) Transformer目标跟踪中的通用关系建模

AITIME论道

于 2023-07-08 12:02:10 发布

阅读量997

点赞数 2

文章标签： transformer 目标跟踪深度学习人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247515487&idx=1&sn=ff14eb65b01e7d36a168a096fa2062a7&chksm=e9328ff9de4506ef9776c52de051d13c0ed3f43147554d00ba2933737def18c1ea68e98d094d&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

以下内容来源于Jun Zhang HKUST J

HKUST

导读

本文将介绍我们近期被CVPR2023录用的工作《Generalized Relation Modeling for Transformer Tracking》。在这篇工作中，我们针对视频目标跟踪中先前基于Transformer注意力机制的双流（two-stream）和单流（one-stream）两种框架各自的特点，提出了一种简单而更具通用性的关系建模方式（Generalized Relation Modeling）。该模式不仅可以自由地退化成为先前的两种模式，而且可以自适应地根据输入来选择需要进行关系建模的区域，从而一定程度上避免了之前两种模式内在的缺陷，进一步提升视频目标跟踪的性能。

论文链接：

https://arxiv.org/abs/2303.16580

代码链接：

https://github.com/Little-Podi/GRM

作者主页：

https://github.com/Little-Podi

研究背景

给定一个目标物体，视频单目标跟踪（SOT）的任务就是在后续的每一帧中定位出该物体的位置。之前较早的SOT工作都是利用Siamese Network分别单独抽取当前帧搜索区域以及模板的特征，然后再进行特征交互融合（“two-stream pipeline”）。近两年SOT的主要进展大致可以分为以下三步：

1. 在backbone网络提取特征阶段引入特征交互的操作 [1, 2, 3]。

这是因为之前大多数工作中搜索区域的特征提取过程是独立于模板特征的，因此引入与模板特征的交互可以促进target-specific的特征提取，增强目标特征在搜索区域中的判别性。

2. 基于self-attention机制，对输入进行直接的拼接来进行特征提取和交互 [4, 5]。

这一步很大程度上得益于self-attention机制的灵活性，通过把搜索区域和模板对应的token进行拼接，我们可以直接通过一个self-attention操作隐式而又高效地完成四种不同的功能，即两种特征提取（搜索区域的self-attention，模板的self-attention）和两种特征交互（搜索区域到模板的cross-attention，模板到搜索区域的cross-attention）。

3. 从网络输入一开始就进行联合的特征提取和特征交互 [6, 7, 8]。

简单来说，就是把linear projection完后的搜索区域和模板对应的token直接拼在一起送入Transformer（“one-stream pipeline”）。这一步是之前两步之后自然而又必然的一步，2022年性能最强的工作都是基于此思想设计的。其最主要的好处就是框架简洁，同时能够享受用最先进方式预训练的Transformer模型。

那么，在意识到整个SOT任务的前进方向之后，下一步可能会是什么呢？

先前的工作中已经有实验结果能够表明，模板特征越早地与搜索区域的特征是有益的。然而，无论是最新的one-stream pipeline还是更早的two-stream pipeline，它们都把整个搜索区域视作一个整体，即要么全都和模板交互（one-stream），要么全都不和模板交互（two-stream）。我们知道，由于SOT中常用的搜索区域crop方式往往是目标物体面积的四五倍以上，那这种视为一体的做法或许就会存在缺陷。一方面，当模板和整个搜索区域交互时，搜索区域中大量的背景信息就有可能传递到模板特征上，导致模板质量在迭代更新的过程中逐渐降低。另一方面，当整个搜索区域和模板交互时，不属于目标物体的背景区域也会或多或少聚合模板传递过来的target-specific的特征，这就有可能对之后目标和背景的有效区分造成干扰。直觉上，只有属于目标物体的那一部分搜索区域，才应该和模板进行交互。

那么，是否存在一种简单而更具通用性的关系建模方式，能够取前两种pipeline之长，而又避前两种pipeline之短？

图1 不同pipeline中关系建模方式的对比

通过对比，不难发现，one-stream和two-stream的主要区别，就是除了搜索区域和模板各自的self-relation modeling之外，还引入了一个全局的cross-relation modeling。因此可以自然地提出一个问题，要是我们能够提供一种构建，能够从two-stream连续地过渡到one-stream，那是不是就能形成一种自由度更高的关系建模方式呢？

方法

从这个动机出发，我们设计了一个轻量化的预测模块来自适应地选取需要进行cross-relation modeling的区域。具体来说，我们对搜索区域的token定义了两个类别。一类被选中能和模板特征进行交互；另一类搜索区域token与模板token之间的交互被阻断，只能和所有搜索区域的token进行交互以保证搜索区域内特征提取的完整性。值得注意的是，我们的这种定义是之前两种pipeline的一种更加通用的构建，当没有token被选为第一类时，我们的网络将退化成为two-stream pipeline，而当所有token都被选为第一类时，我们的网络将退化成为one-stream pipeline，这些退化都是可以通过学习得到的。

图2 基于通用关系建模的视频目标跟踪框架

注意到这边引入了一个离散的分类任务，这就产生了另外的两个问题。一是由于不同类别的token数目大概率是不一致的，那如何做到GPU友好的并行化计算就是个问题。二是这种二值化操作不可求导，从而导致在训练过程中无法进行端到端优化的问题。

为了解决这两个问题，我们先是引入attention masking操作，从而在保证并行度的前提下达到等效于分组计算注意力的效果。对于不可求导的问题，我们借助Gumbel-Softmax重参数化技术，实现了对我们额外预测模块的端到端优化。

实验

下面是我们在各个主流benchmark上的实验结果，可以看到我们提出的Generalized Relation Modeling在各个数据集上都能稳定取得有竞争力的结果。

表1 在主流跟踪数据集上的效果对比

总结

在这篇工作中，我们提出了一种通用的模板和搜索区域之间关系建模方式，综合了之前two-stream pipeline和one-stream pipeline的优势，一定程度上避免了两者内在的缺陷，进一步提升了跟踪的性能。更多细节分析还请关注我们的paper。希望我们的工作能为之后Transformer tracker中关系建模的思考和深挖提供一点借鉴。

参考文献

[1] Yu, Yuechen, et al. "Deformable siamese attention networks for visual object tracking." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.

[2] Xie, Fei, et al. "Correlation-aware deep tracking." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[3] Guo, Mingzhe, et al. "Learning target-aware representation for visual tracking via informative interactions." arXiv preprint arXiv:2201.02526 (2022).

[4] Yan, Bin, et al. "Learning spatio-temporal transformer for visual tracking." Proceedings of the IEEE/CVF international conference on computer vision. 2021.

[5] Lin, Liting, et al. "Swintrack: A simple and strong baseline for transformer tracking." Advances in Neural Information Processing Systems 35 (2022): 16743-16754.

[6] Cui, Yutao, et al. "Mixformer: End-to-end tracking with iterative mixed attention." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[7] Ye, Botao, et al. "Joint feature learning and relation modeling for tracking: A one-stream framework." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXII. Cham: Springer Nature Switzerland, 2022.

[8] Chen, Boyu, et al. "Backbone is all your need: a simplified architecture for visual object tracking." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXII. Cham: Springer Nature Switzerland, 2022.

作者：GAO, Shenyuan

编辑：LIN, Zehong

提醒

点击“阅读原文”跳转到0:37:45

可以查看回放哦！

往期精彩文章推荐