Performer：用随机投影将Attention的复杂度线性化

最新推荐文章于 2024-09-04 14:31:07 发布

PaperWeekly

最新推荐文章于 2024-09-04 14:31:07 发布

阅读量1.2k

点赞数

文章标签：人工智能机器学习 xhtml cstring twitter

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/111188962

版权

Performer是Google提出的一项技术，旨在通过随机投影将Attention机制的复杂度从指数级降低到线性级，同时保持精度。这种方法基于标准的Attention，通过找到特定的映射方案，将原本高复杂度的Self Attention转换为线性Attention，理论上有望在不牺牲性能的前提下显著提升处理长序列的效率。然而，Performer在短序列任务上可能表现不佳，并且与某些Transformer增强技术不兼容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者｜苏剑林

单位｜追一科技

研究方向｜NLP、神经网络

Attention 机制的复杂度是一个老大难问题了，改变这一复杂度的思路主要有两种：一是走稀疏化的思路，比如我们以往介绍过的 Sparse Attention 以及 Google 前几个月搞出来的 Big Bird [1] ，等等；二是走线性化的思路，这部分工作我们之前总结在线性 Attention 的探索：Attention 必须有个 Softmax 吗？中，读者可以翻看一下。

本文则介绍一项新的改进工作 Performer，出自 Google 的文章 Rethinking Attention with Performers，它的目标相当霸气：通过随机投影，在不损失精度的情况下，将 Attention 的复杂度线性化。

论文标题：

Rethinking Attention with Performers

论文链接：

https://arxiv.org/abs/2009.14794

说直接点，就是理想情况下我们可以不用重新训练模型，输出结果也不会有明显变化，但是复杂度降到了！看起来真的是“天上掉馅饼”般的改进了，真的有这么美好吗？

Attention

我们知道，Attention 的一般定义为：

对于标准的 Scaled-Dot Attention 来说，（有时候指数部分还会多个缩放因子，这里我们就不显式写出来了），将整个序列的运算写成矩阵形式就是：

我们主要关心 Self Attention 场景，所以一般有。在上式中，这一步相当于要对个向量对做内积，得到个实数，因此不管时间还是空间复杂度都是的。

而对于线性 Attention 来说，，其中是值域非负的激活函数。这样一来，Attention 的核心计算量（式（1）中的分子部分）就变成了：

上式左端的复杂度依然是的，由于矩阵乘法满足结合律，我们可以先算后面两个矩阵的乘法，这样复杂度就可以降为

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。