Transformer新内核Synthesizer：低复杂度的attention代替点乘式的注意力机制

最新推荐文章于 2024-04-30 10:58:37 发布

BUAA～冬之恋

最新推荐文章于 2024-04-30 10:58:37 发布

阅读量1.1k

点赞数 2

分类专栏：论文阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013602059/article/details/107405896

版权

在这里插入图片描述
论文链接：https://arxiv.org/pdf/2005.00743.pdf
参考文档：https://mp.weixin.qq.com/s/e2Cor8amz7GiFfBGdLXULg

导读

今天阅读的是一篇来自Google的最新论文《SYNTHESIZER: Rethinking Self-Attention in Transformer Models》，该论文重新探索了Transformer中注意力机制的必要性，并引入了新的attention计算方法Synthesizer。实验显示，即使不进行token之间的attention交互计算，synthesizer在翻译、语言模型、GLUE等任务上也可以达到很好的效果。

1、引言

1.1、什么是自注意力机制

自注意力机制算是解释性比较强的模型之一，它通过直接把序列两两比较（代价是计算量变为 $O(n^2)$ ，当然由于是纯矩阵运算，这个计算量相当也不是很严重），能够一步到位捕捉到全局的联系。相比之下，RNN 需要一步步递推才能捕捉到，而 CNN 则需要通过层叠来扩大感受野，这是 Self Attention 层的明显优势。
在这里插入图片描述
自注意力机制到底是如何生效的？这种“token”对“token”的注意力是必须的吗？ $Attention(Q,K,V)=softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ $Self-Attention(X)=Attention(XW_Q,XW_K,XW_V)=softmax\left(\frac{XW_QW_K^TX^T}{\sqrt{d_k}}\right)XW_V$

最低0.47元/天解锁文章

BUAA～冬之恋

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Transformer新内核Synthesizer：低复杂度的attention代替点乘式的注意力机制

论文链接：https://arxiv.org/pdf/2005.00743.pdf参考文档：https://mp.weixin.qq.com/s/e2Cor8amz7GiFfBGdLXULg导读今天阅读的是一篇来自Google的最新论文《SYNTHESIZER: Rethinking Self-Attention in Transformer Models》，该论文重新探索了Transformer中注意力机制的必要性，并引入了新的attention计算方法Synthesizer。实验显示，即使不进行.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。