【Efficient Attention: Attention with Linear Complexities】WCAV2021

最新推荐文章于 2024-04-15 20:00:00 发布

gesshoo

最新推荐文章于 2024-04-15 20:00:00 发布

阅读量3.4k

点赞数 3

分类专栏： Transformer-based 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gesshoo/article/details/123582284

版权

Transformer-based 专栏收录该内容

9 篇文章 2 订阅

订阅专栏

由于矩阵乘法是关联的，将顺序从切换到对效果没有什么影响，但可以将复杂度从O(n^2)到O(dk*dv)，使其复杂度成为线性。在实际情况下，dk*dv明显小于n^2。

这种方法被文章称为”efficient attention“。

新机制在数学上等价于尺度归一化的点乘注意力，近似于softmax归一化的点乘注意力。实验证明，当近似相等时并不影响准确率。另外，实验表明它的效率允许将更多的注意力模块集成到网络中，并集成到网络的高分辨率部分中，这将导致更高的准确率。此外，实验还表明，有效的注意力可以将注意力大众化到由于资源限制而不适用点积注意力的任务上。

Efficient attention机制对注意力机制带来了新的解释。（此处不写）

Key可以看作dk个模板关注图，每一个都对应于输入的语义方面。每个像素上的query分别表示dk个模板关注图的dk个系数。注意力使用这些特征图中的每一个作为所有位置上的权重，并通过加权求和来聚集值特征以形成全局上下文向量。

Efficient attention首先通过模板关注图聚合value形成模板输出，即全局上下文向量。然后让每个像素聚合模板输出。

相关工作

1.点乘注意力

本文比较了efficient attention模块与non-local模块在相同性能下的资源效率，以及在相同资源约束下的性能。

2.尺度注意力

SE、CBAM等。尽管这两个名称都包含注意力，但点积注意力和扩大注意力是两套截然不同的技术，目标截然不同。

3.高效的非局部操作

LatentGNN提出用三个低秩矩阵的乘积近似非局部模块中的单个n×n亲和矩阵。相比之下，有效注意力不是非局部模块的近似值，而是数学上等价的(使用比例归一化）。

CGNL建议将高度、宽度和通道维度展平为HWC-维向量，应用核函数将维度扩展到HWC×(p+1)，其中p是泰勒展开的次数，并在该空间中模拟全局依赖关系。然而，在将输入平整成矢量后，每个位置的特征就变成了标量，这就编码了有限的信息用于交互建模。

方法

（1）A revisit of dot-product attention

归一化函数有两种常见选择：

表示将SoftMax函数应用于矩阵Y的每行。

这一机制的关键缺点是它的资源需求。

（2）Efficient attention

(3) Equivalence between dot-product and efficientattention等价性

(4）Interpretation of efficient attention

(5) Efficiency advantage

推导了有效注意模型和非局部模型(使用点积注意)的复杂度公式。

实验

将键的维数从128降低到32只会导致最小的精度变化。大多数关注度图都可以表示为有限的模板关注度图的线性组合。因此，研究人员可以降低高效注意模块中关键字和查询的维数，从而进一步节省资源。

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
4
评论
【Efficient Attention: Attention with Linear Complexities】WCAV2021

由于矩阵乘法是关联的，将顺序从切换到对效果没有什么影响，但可以将复杂度从O(n^2)到O(dk*dv)，使其复杂度成为线性。在实际情况下，dk*dv明显小于n^2。这种方法被文章称为”efficient attention“。新机制在数学上等价于尺度归一化的点乘注意力，近似于softmax归一化的点乘注意力。实验证明，当近似相等时并不影响准确率。另外，实验表明它的效率允许将更多的注意力模块集成到网络中，并集成到网络的高分辨率部分中，这将导致更高的准确率。此外，实验还表明，有效的注意力可以将注意力..
复制链接

扫一扫

专栏目录

gesshoo CSDN认证博客专家 CSDN认证企业博客

码龄1天

12: 原创

23万+: 周排名

183万+: 总排名

3万+: 访问

: 等级

125: 积分

553: 粉丝

8: 获赞

5: 评论

45: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Efficient Attention: Attention with Linear Complexities】WCAV2021
m0_62272889: 看看显存占用
【Efficient Attention: Attention with Linear Complexities】WCAV2021
羊驼#: 我跑了一下，使用这个EA模块与原始网络相比下降了1.9个百分点，这个是正常还是有问题？
【Efficient Attention: Attention with Linear Complexities】WCAV2021
专注的大卫: attention操作主要就是无参操作，参数量并不会有明显下降。主要是在计算复杂度和产生的特征矩阵大小上会有明显差异。
【Efficient Attention: Attention with Linear Complexities】WCAV2021
崩溃了、: 为啥我使用的时候感觉参数没有明显的下降呢，结果确实与self_attention相差不大
分组卷积conv2d
qq_38601902: matlab怎么分组卷积呀，目前看到的都是ptorch的，matlab没有groups这个参数

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。