GRM: Generalized Relation Modeling for Transformer Tracking论文模型及代码结构解读

Soonki

已于 2024-06-20 00:29:49 修改

阅读量895

点赞数 31

分类专栏： OT论文解读文章标签： transformer 深度学习人工智能目标跟踪

于 2024-06-19 15:49:32 首次发布

本文链接：https://blog.csdn.net/Soonki/article/details/139801419

版权

OT论文解读专栏收录该内容

15 篇文章

订阅专栏

论文地址
代码地址

写在前面

Two-stream pipeline

如图所示，search和template分支是独立两根流线，提取特征后计算互相关信息，也是最常用的，缺点是提取的特征缺乏目标的感知性，对目标-背景的区分能力有限，两个patch之间信息交互度较差
Two-stream pipeline

One-stream pipeline

如图所示，单流程的pipeline在特征完成提取前，就进行了信息交互，然后再进行各种互信息的计算，通用的是template与所有计算search的互信息之前，与search所有部分进行交互。有点是对前景和背景的区分能力强，两个patch间的交互程度高。 One-stream pipeline

作者的做法

作者采用了one-stream pipeline的网络结构，在论文中描述道“inherits the merits of
both previous two-stream and one-stream pipelines”同时具有单双流程的结构优点。
在这里插入图片描述其实作者的这幅图并不准确，可能会误导读者，会让读者完全不知道这是怎么做的。

Backbone

首先，我们要知道，作者使用了ViT作为backbone，首先将图片切分出一个个patch，如图
patch-embedding
search和template分别经过相同的patch_embedding，分别生成 $search_{patch} = [Batch, H \times W, C]$ 和 $template_{patch} = [Batch, h \times w, C]$ ，然后在 $d im = 1$ 上拼接成 $\times W + h \times w, C]$ ，这个 $x$ 就是送入ViT的 $12$ 层Block的输入，不再单独计算Search和Template了。

	patch_size	Block层数	hidden_dim	MLP size	参数体量
vit_base	$16 \times 16$	12	768	3072	86M
vit_large	$16 \times 16$	24	1024	4096	307M
vit_huge	$14 \times 14$	32	1280	5120	632M

如图所示，按照上面调整参数，就是不同版本的ViT

在这里插入图片描述

Transformer的Block中的小修改

作者并没有动整体框架，只是从第二个Block开始，把 $\otimes k)$ 换成 $softmax\_with\_policy(q \otimes k, policy)$ ，如图所示，就是把每个循环的输入 $\times W + h \times w, C]$ 进行如图操作，生成policy，然后进行softmax_with_policy。

在这里插入图片描述

注意，这里生成的 $\times W, C=2]$
在这里插入图片描述

经过两次拼接，形式如图所示的 $\times W + h \times w, C=3]$ ，
在这里插入图片描述
注意，其中粉色为0，深蓝色为1，也就是decision对角处为1，其他为0.

Head

作者提供了两种head，分别是MLP和CenterHead，MLP不做解释了，CenterHead其实很简单的，就是对特征做三组nn.Sequential，分别产生Score_map_ctr用来做分类、size_map用来预测bbox尺寸和 offset_map用来预测中心点的位移。
具体如图所示：

在这里插入图片描述