什么是轴向注意力（Axial Attention）机制

最新推荐文章于 2025-03-31 17:13:10 发布

胖虎干嘛了

最新推荐文章于 2025-03-31 17:13:10 发布

阅读量8.9k

点赞数 4

分类专栏： Deep Learning学习笔记文章标签：计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_53327618/article/details/129977565

版权

Deep Learning学习笔记专栏收录该内容

10 篇文章

订阅专栏

Axial Attention，轴向注意力，有行注意力（row-attention）和列注意力（column-attention）之分，一般是组合使用。

原文阅读：https://arxiv.org/pdf/1912.12180v1.pdf

self-attention已经显示出了良好的性能，不过其缺点也是明显的：它的使用使得模型的参数量和计算量开始飙增，特别是应用在nlp的长序列问题和图像的像素点上时。以后者为例，单张图像大小为H*W(*3)，一个像素点需要和其他所有像素点作注意力，即H*W，一共又有H*W个像素点，则一次self-attention的计算量在O((H*W)²)，当图像的分辨率不断增高，这种平方式增长的计算量是不能接受的。
在这里插入图片描述

轴向注意力应运而生，简单来说，是分别在图像的竖直方向和水平方向分别进行self-attention，这样计算量被削减为O(2*H*W)=O(H*W)

显然，单独使用行或列注意力是无法融合全局信息的，只有组合起来才能获得与full attention相似的性能。

以两个维度为例，组合方式可以先行再列，可以先列再行，也可以分别进行行与列注意力，再对结果分别相加。

先行再列：x1 = RowAtten(x), out = ColAtten(x1)
先列再行：x1 = ColAtten(x), out = RowAtten(x1)
分别进行：out = RowAtten(x) + ColAtten(x)

代码展示可以参考我的另一篇博客论文学习——VideoGPT，使用的是对时间和空间共三个维度分别进行axial attention，再对结果相加的形式。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

胖虎干嘛了 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。