Linformer 阅读笔记

背景,普通的self-attention
Q 是 n x d
K 是 n x d
V 是 n x d
QK是 n x n 继而 (QK)V 是n x d
计算量最大的在于QK出n x n这步,固算Attention为O(n^2)复杂度

Linformer用两个 n x k 矩阵,将 K 和 V 映射为 k x d

Q 是 n x d
K 是 k x d
V 是 k x d
QK是 n x k 继而 (QK)V 还是n x d

k如果足够小的话,证明就是O(n)复杂度算Attention了,
同时,文章从数学上证明了这样做的误差和原来相比很小。

©️2020 CSDN 皮肤主题: 创作都市 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值