【Luna: Linear Unified Nested Attention】2021

最新推荐文章于 2024-07-05 22:10:12 发布

gesshoo

最新推荐文章于 2024-07-05 22:10:12 发布

阅读量613

点赞数

分类专栏： Transformer-based 文章标签：深度学习 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gesshoo/article/details/123589084

版权

线性统一嵌套注意力。用两个嵌套的线性注意力函数近似softmax attention，只产生线性(而不是二次)的时间和空间复杂性。

Luna引入了一个固定长度的额外的序列作为输入，对应着一个额外的输出，寻允许Luna线性地进行注意操作，同时还存储足够的上下文信息。

具体地说，利用第一个注意力函数，Luna将输出序列打包成固定长度的序列。然后，使用第二个注意力函数对打包的序列进行解包。Luna引入了一个固定长度的附加序列作为输入和一个附加的相应输出。重要的是，额外的输入能够像Linformer一样高效地线性的注意力操作，同时也存储了足够的上下文信息。不像Linformer的是，Luna能模拟可变长度序列和自回归注意力。

模型

Pack and Unpack Attention

L

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Luna: Linear Unified Nested Attention】2021

线性统一嵌套注意力。用两个嵌套的线性注意力函数近似softmax attention，只产生线性(而不是二次)的时间和空间复杂性。Luna引入了一个固定长度的额外的序列作为输入，对应着一个额外的输出，寻允许Luna线性的进行注意操作，同时还存储足够的上下文信息。...
复制链接

扫一扫

专栏目录

gesshoo CSDN认证博客专家 CSDN认证企业博客

码龄3年

12: 原创

40万+: 周排名

135万+: 总排名

3万+: 访问

: 等级

125: 积分

567: 粉丝

8: 获赞

5: 评论

48: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Efficient Attention: Attention with Linear Complexities】WCAV2021
m0_62272889: 看看显存占用
【Efficient Attention: Attention with Linear Complexities】WCAV2021
羊驼#: 我跑了一下，使用这个EA模块与原始网络相比下降了1.9个百分点，这个是正常还是有问题？
【Efficient Attention: Attention with Linear Complexities】WCAV2021
专注的大卫: attention操作主要就是无参操作，参数量并不会有明显下降。主要是在计算复杂度和产生的特征矩阵大小上会有明显差异。
【Efficient Attention: Attention with Linear Complexities】WCAV2021
崩溃了、: 为啥我使用的时候感觉参数没有明显的下降呢，结果确实与self_attention相差不大
分组卷积conv2d
qq_38601902: matlab怎么分组卷积呀，目前看到的都是ptorch的，matlab没有groups这个参数

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。