AiATrack: Attention in Attention for Transformer Visual Tracking模型及代码结构解读

Soonki

已于 2024-03-13 16:23:20 修改

阅读量982

点赞数 22

分类专栏： OT论文解读文章标签： transformer 深度学习人工智能目标跟踪

于 2024-03-13 16:17:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Soonki/article/details/136682558

版权

OT论文解读专栏收录该内容

15 篇文章 2 订阅

订阅专栏

论文地址
 代码地址

Introduction

典型的Transformer跟踪框架中，通过自注意力模块增强参考帧和搜索帧的特征表示，并通过交叉注意力模块桥接它们之间的相关性，以在搜索帧中预测目标。这种机制通过QK的点积来计算相关性图，但独立计算每对QK的相关性可能会忽略它们之间的相互作用，从而在复杂背景中引入误差。这可能导致注意力权重变得不准确，影响跟踪性能。

所以：
作者引入了AiA（Attention in Attention）模块，字面意思，就是在一个Attention中，再引入一个Attention，并把该模块作为Encoder和Decoder的basis。

Method

在这里插入图片描述

作者引入的AiA模块，就是基于 $\otimes K}$ 的值，在代码中叫做 ${corr}$ _ ${map}$ ，将其与 $\times W, B, C=64]}$ 的位置嵌入 ${inr \_ emb}$ 作为输入，进行二次注意力计算，这大概就是Attention in Attention名字的由来吧。

在这里插入图片描述作者基于上述的AiA module，

构建了一个3层Encoder layer的Encoder和一层Decoder layer的Decoder，作为模型的主模块，
backbone为ResNet50，输出为layer3
Head部分由一个CornerHead和一个IoUNet构成

关于输入采样：

Search Image采样一张
Reference Image采样两张

实验结果和我个人的理解

作者提出的模型效果真的很好，LaSOT测试集上的AUC效果直接干到了 ${69.0}$ ，但是令人费解的是，这么庞大的网络结构，这么多的参数，在一个2080Ti显卡上居然能有38FPs

在这里插入图片描述我是持怀疑态度的，最近正好在跑Mainstream模型在2080Ti显卡上的FPs，结果还需要挺久才能出来所以这里就先留一个悬念吧。

细化的网络模型和代码结构

详细代码就不上了，太枯燥了，直接放上代码的导图，仔细看，很细的哟
从这里就可以看出来，这个模型确实有点过于庞大，所以我才有怀疑模型的运行速度的
在这里插入图片描述由于版面限制，这里是普通清晰度的，高清大图点这里

关注

22
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
AiATrack: Attention in Attention for Transformer Visual Tracking模型及代码结构解读

典型的Transformer跟踪框架中，通过自注意力模块增强参考帧和搜索帧的特征表示，并通过交叉注意力模块桥接它们之间的相关性，以在搜索帧中预测目标。作者引入了AiA（Attention in Attention）模块，字面意思，就是在一个Attention中，再引入一个Attention，并把该模块作为Encoder和Decoder的basis。，但是令人费解的是，这么庞大的网络结构，这么多的参数，在一个2080Ti显卡上居然能有38FPs。作者引入的AiA模块，就是基于。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。