Transformer升级之路：从Performer到线性Attention

最新推荐文章于 2024-05-28 23:02:02 发布

PaperWeekly

最新推荐文章于 2024-05-28 23:02:02 发布

阅读量1.1k

点赞数

文章标签：人工智能深度学习 bmp 机器学习办公软件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/116141166

版权

©PaperWeekly 原创 · 作者｜苏剑林

单位｜追一科技

研究方向｜NLP、神经网络

看过笔者之前的文章线性Attention的探索：Attention 必须有个 Softmax 吗？和 Performer：用随机投影将 Attention 的复杂度线性化的读者，可能会觉得本文的标题有点不自然，因为是先有线性 Attention 然后才有 Performer 的，它们的关系为“Performer 是线性 Attention 的一种实现，在保证线性复杂度的同时保持了对标准 Attention 的近似”，所以正常来说是“从线性 Attention 到 Performer”才对。

然而，本文并不是打算梳理线性 Attention 的发展史，而是打算反过来思考 Performer 给线性 Attention 所带来的启示，所以是“从 Performer 到线性 Attention”。

激活函数

线性 Attention 的常见形式是：

其中是值域非负的激活函数。那么如何选取这个激活函数呢？Performer 告诉我们，应该选择指数函数：

首先，我们来看它跟已有的结果有什么不一样。在《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》[1] 给出的选择是：

我们知道正是在 x=0 处的一阶泰勒展开，因此这个选择其实已经相当接近了。

此外，这个方案还跟《Efficient Attention: Attention with Linear Complexities》[2] 一文中引入的双重 softmax 来构建线性 Attention 的设计很相似，在那种设计中有，相比直接

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Transformer升级之路：从Performer到线性Attention

©PaperWeekly 原创 ·作者｜苏剑林单位｜追一科技研究方向｜NLP、神经网络看过笔者之前的文章线性Attention的探索：Attention 必须有个 Softmax 吗？和...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。