【Linformer：Self-Attention with Linear Complexity】

最新推荐文章于 2024-06-08 10:05:38 发布

gesshoo

最新推荐文章于 2024-06-08 10:05:38 发布

阅读量2.5k

点赞数 1

分类专栏： Transformer-based 文章标签：深度学习计算机视觉机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gesshoo/article/details/123566083

版权

论文中，展示了自注意力机制可以被一个低秩矩阵近似，利用这一发现提出了新的自注意力机制，将空间与时间计算复杂度降低到O(n)。

作者发现自注意力是低秩的，通过线性投影将原本的点乘注意力分解为多个较小的注意力，使这些运算的组合形成原始注意力的低秩因式分解。

下表是不同transformer架构的复杂度汇总：

理论：

自注意力机制矩阵，context mapping matrix P，是低秩的。

左边的图，将奇异值分解在不同的层和头运用到P，画出每10K个句子的归一化累积奇异值平均值，结果显示了清晰的lang-tail谱分析，这意味着P的大部分信息可以从前几个最大奇异值中恢复出来。

右边图，可视化了第128个最大奇异值的归一化累积奇异值的热图&#x

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【Linformer：Self-Attention with Linear Complexity】

论文中，展示了自注意力机制可以被一个低秩矩阵近似，利用这一发现提出了新的自注意力机制，将空间与时间计算复杂度降低到O(n)。作者发现自注意力是低秩的，通过线性投影将原本的点乘注意力分解为多个较小的注意力，使这些运算的组合形成原始注意力的低秩因式分解。下表是不同transformer架构的复杂度汇总：理论：自注意力机制矩阵，context mapping matrix P，是低秩的。左边的图，将奇异值分解在不同的层和头运用到P，画出每10K个句子的归一化累积奇异值平均值，结果显示
复制链接

扫一扫

专栏目录

gesshoo CSDN认证博客专家 CSDN认证企业博客

码龄3年

12: 原创

40万+: 周排名

135万+: 总排名

3万+: 访问

: 等级

125: 积分

567: 粉丝

8: 获赞

5: 评论

48: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Efficient Attention: Attention with Linear Complexities】WCAV2021
m0_62272889: 看看显存占用
【Efficient Attention: Attention with Linear Complexities】WCAV2021
羊驼#: 我跑了一下，使用这个EA模块与原始网络相比下降了1.9个百分点，这个是正常还是有问题？
【Efficient Attention: Attention with Linear Complexities】WCAV2021
专注的大卫: attention操作主要就是无参操作，参数量并不会有明显下降。主要是在计算复杂度和产生的特征矩阵大小上会有明显差异。
【Efficient Attention: Attention with Linear Complexities】WCAV2021
崩溃了、: 为啥我使用的时候感觉参数没有明显的下降呢，结果确实与self_attention相差不大
分组卷积conv2d
qq_38601902: matlab怎么分组卷积呀，目前看到的都是ptorch的，matlab没有groups这个参数

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。