Johnson–Lindenstrauss Lemma(2)attention

传统(多头注意力机制):

在这里插入图片描述
在 余 下 部 分 不 区 分 d k 和 d v , 均 使 用 d 表 示 。 P 部 分 的 计 算 需 要 把 序 列 中 每 个 位 置 的 t o k e n 都 两 两 组 合 在余下部分不区分d_k和d_v,均使用d表示。\tiny P部分的计算需要把序列中每个位置的token都两两组合 dkdv使dPtoken

新型:linformer中的多头注意力

     两种注意力的对比图:
在这里插入图片描述

在这里插入图片描述
选 择 k < < n , 以 下 的 空 间 与 时 间 计 算 的 复 杂 度 为 O ( n k ) 选择k<<n,以下的空间与时间计算的复杂度为 O(nk) k<<n,O(nk)
在这里插入图片描述
投 影 矩 阵 E i , F i ∈ R n × k , K W i K   &   V W i V ∈ R n × d 投影矩阵E_i,F_i\in R^{n×k}, \\ KW_i^K\ \& \ VW_i^V\in R^{n×d} Ei,FiRn×k,KWiK & VWiVRn×d

原因

     Johnson–Lindenstrauss Lemma —对数降维到低秩定理。

定 理 1 : s e l f − a t t e n t i o n 是 低 秩 的 定理1:self-attention是低秩的 1:selfattention
在这里插入图片描述
既 然 P 是 低 秩 的 , 使 用 阶 段 的 S V D 近 似 实 验 发 现 , 矩 阵 P 中 的 大 部 分 信 息 都 可 以 由 少 量 最 大 的 奇 异 值 来 恢 复 。 既然P是低秩的,使用阶段的SVD近似实验发现,矩阵 P 中的大部分信息都可以由少量最大的奇异值来恢复。 P使SVDP
在这里插入图片描述

定 理 2 : k 为 O ( d / ϵ 2 ) 时 , 可 以 以 ϵ 线 性 逼 近 定理2:k为 O(d /\epsilon^2) 时,可以以\epsilon 线性逼近 2:kO(d/ϵ2)ϵ线
在这里插入图片描述


文章地址:Linformer: Self-Attention with Linear Complexity
王思农、李贝琳达、马甸·卡萨、韩芳、马浩
大型transformer模型在许多自然语言处理应用中取得了非凡的成功。然而,对于长序列,训练和部署这些模型的成本可能会高得令人望而却步,因为变压器的标准自我注意机制在序列长度方面使用O(n2)时间和空间。在本文中,我们证明了自我注意机制可以用低秩矩阵来近似。我们进一步利用这一发现提出了一种新的自我注意机制,该机制在时间和空间上将整体自我注意复杂性从O(n2)降低到O(n)。得到的线性Transformer,与标准变压器模型相匹配,同时具有更大的存储和具有时效性的性能。

投影后秩降低的问题《Low-Rank Bottleneck in Multi-head Attention Models》

由 于 标 准 s e l f − a t t e n t i o n 使 用 s o f t m a x 中 e Q K T 有 可 能 升 秩 , 而 投 影 后 可 能 无 法 保 持 高 秩 , 维 持 更 多 的 信 息 。 由于标准self-attention使用softmax中e^{QK^T}有可能升秩,而投影后可能无法保持高秩,维持更多的信息。 selfattention使softmaxeQKT

更多相关:
Efficient Transformers: A Survey
在这里插入图片描述
Perfomer论文:RETHINKING ATTENTION WITH PERFORMERS
通过 Performer 架构再探注意力机制
Reformer: The Efficient Transformer局部敏感哈希LSH Attention 残差网络Residual Network
https://lilianweng.github.io/lil-log/2020/04/07/the-transformer-family.html
Transformers大家族——Efficient Transformers: A Survey

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值