CVPR‘2024 即插即用系列! | StructViT:结构化视觉Transformer

 

Title:Learning Correlation Structures for Vision Transformers

Paper:Learning Correlation Structures for Vision Transformers

Code:Learning Correlation Structures for Vision Transformers (kimmanjin.github.io)

导读

本文提出一种新的注意力机制,称为结构自注意力(StructSA),并提出StructViT:结构视觉Transformer,StructVit可以有效提取图像中的结构化信息,在图像和视频分类任务上性能表现SOTA!

动机

让我们回到最熟悉的自注意力公式:

Q = X W_q

K = X W_k

V = X W_v

\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{Q K^T}{\sqrt{d_k}} \right) V

可以看到标准的自注意力计算仅关注其计算结果,而忽略了其中间过程产生的丰富的结构信息

这部分信息集中在公式 Q K^T 的部分。比如取图(a)中标红的部分作为q,那么经过q K^T计算后,我们会得到一个如图(b)的特征图,图(b)也被称为Q-K关联矩阵,可以看到其中包含了丰富的结构信息。

而本文的目标就是利用b图中丰富的结构化特征信息,从而使得Vit具有更好的提取结构特征的能力。

方法

StructuralQuery-KeyAttention(SQKA)

为了将普通的查询键注意转换为结构感知的注意,结构化查询键注意(SQKA)在查询键相关Q K^T上部署卷积:

\mathbf{A}_i = \sigma \left( \text{conv} \left( \mathbf{q}_i \mathbf{K}, \mathbf{U}^{K} \right) \right) \in \mathbb{R}^{N \times D}

值得一提的是,这里的卷积\mathbf{U}^{K}具有多个维度,因此可以学习到多种的结构信息,这也在后续的实验中也被很好的证明。

Contextual Value Aggregation

在以结合卷积的方式计算完成q K^T后,按照常规自注意力的操作,就应该把它与Value值相乘累加起来。

其中u^{\mathrm{V}}是为了将刚刚多维度卷积生成的多个特征图重新投影降维,以便与Value值计算。

为了更好的实现上下文聚合,公式为进一步改进,v_{j}可以被替换为V_{j},即v_{j}周围的一块Value值,并且通过一个空间块将V_{j}投影到v_{j}的大小,从而实现Value的上下文聚合。最终的公式如下所示:

与其他卷积结构Vit的对比

也有很多Vit引入了卷积结构这些卷积多被用于投影上

作者通过可视化实验证明了StructSA能提取到更多的信息。

最明显的是图2的柠檬,可以看到某些卷积学习到了果肉的结构信息,某些卷积学习到了果皮的信息,这证明了SructSA的有效性,并且也为Vision Transformer提供了很好的可解释性

实验

本文在图像和视频数据集(ImageNet-1K, Kinetics-400, Something-Something V1 & V2, Diving-48,  FineGym)的分类任务上进行了广泛的实验,证明了StructVit的有效性。

总结

本文引入了一种新的自注意机制,StructSA,它利用查询键相关的丰富结构模式进行视觉表征学习。StructSA利用局部关联的空间(和时间)结构,并在整个位置上聚合局部特征块。结构视觉转换器(StructViT)使用StructSA作为主要注意力模块,在图像和视频分类基准上实现了最先进的结果。

写在最后

希望看完的小伙伴多多点赞,收藏,关注,我会持续分享深度学习领域最新的论文!

  • 15
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Transformer即用是指一种模块的方法,将Transformer结构应用于神经网络的前一层,以挖掘样本之间的关系。在BatchFormer中,Transformer模块被入到分类器前一层,沿着batch维度操作整个批次,而不是空间维度。此外,BatchFormer还引入了共享分类器的策略,使得在测试时可以移除BatchFormer,而网络不会增加计算和内存负载。BatchFormerV2是BatchFormer的更一般版本,可以应用于不同的任务和数据集,并在多个领域取得了良好的效果。 这种即即用的方法为特征表示学习和模型架构的探索提供了一种有效的方式。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [BatchFormer: 一种简单有效、即即用的探索样本关系通用模块 (CVPR2022)](https://blog.csdn.net/zandaoguang/article/details/127330200)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [MaxViT:多轴视觉Transformer](https://download.csdn.net/download/weixin_44911037/86823798)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值