Johnson–Lindenstrauss Lemma（2）attention

FakeOccupational

已于 2022-04-02 18:28:33 修改

阅读量604

点赞数

文章标签： python

于 2022-02-14 20:30:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ResumeProject/article/details/122930123

版权

未分类专栏专栏收录该内容

7 篇文章 1 订阅

订阅专栏

传统（多头注意力机制）：

在这里插入图片描述
$在余下部分不区分d_k和d_v，均使用d表示。\tiny P部分的计算需要把序列中每个位置的token都两两组合$

新型：linformer中的多头注意力

两种注意力的对比图：
在这里插入图片描述

在这里插入图片描述
$选择 k < < n, 以下的空间与时间计算的复杂度为 O (n k)$

$投影矩阵E_i,F_i\in R^{n×k}, \\ KW_i^K\ \& \ VW_i^V\in R^{n×d}$

原因

Johnson–Lindenstrauss Lemma —对数降维到低秩定理。

$定理 1 : s e l f - a t t e n t i o n 是低秩的$
在这里插入图片描述
$既然 P 是低秩的，使用阶段的 S V D 近似实验发现，矩阵 P 中的大部分信息都可以由少量最大的奇异值来恢复。$

$/\epsilon^2) 时，可以以\epsilon 线性逼近$
在这里插入图片描述

文章地址：Linformer: Self-Attention with Linear Complexity
王思农、李贝琳达、马甸·卡萨、韩芳、马浩
大型transformer模型在许多自然语言处理应用中取得了非凡的成功。然而，对于长序列，训练和部署这些模型的成本可能会高得令人望而却步，因为变压器的标准自我注意机制在序列长度方面使用O（n2）时间和空间。在本文中，我们证明了自我注意机制可以用低秩矩阵来近似。我们进一步利用这一发现提出了一种新的自我注意机制，该机制在时间和空间上将整体自我注意复杂性从O（n2）降低到O（n）。得到的线性Transformer，与标准变压器模型相匹配，同时具有更大的存储和具有时效性的性能。

投影后秩降低的问题《Low-Rank Bottleneck in Multi-head Attention Models》

$由于标准self-attention使用softmax中e^{QK^T}有可能升秩，而投影后可能无法保持高秩，维持更多的信息。$

更多相关：
Efficient Transformers: A Survey
在这里插入图片描述
 Perfomer论文:RETHINKING ATTENTION WITH PERFORMERS
通过 Performer 架构再探注意力机制
 Reformer: The Efficient Transformer局部敏感哈希LSH Attention 残差网络Residual Network
https://lilianweng.github.io/lil-log/2020/04/07/the-transformer-family.html
Transformers大家族——Efficient Transformers: A Survey

FakeOccupational

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Johnson–Lindenstrauss Lemma（2）attention

多头注意力机制：在余下部分不区分dk和dv，均使用d表示。P部分的计算需要把序列中每个位置的token都两两组合在余下部分不区分d_k和d_v，均使用d表示。\tiny P部分的计算需要把序列中每个位置的token都两两组合在余下部分不区分dk和dv，均使用d表示。P部分的计算需要把序列中每个位置的token都两两组合linformer中的多头注意力     两种注意力的对比图：选择k<<n,以下的空间与时间计算的复杂度为O(n
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。