论文中,展示了自注意力机制可以被一个低秩矩阵近似,利用这一发现提出了新的自注意力机制,将空间与时间计算复杂度降低到O(n)。
作者发现自注意力是低秩的,通过线性投影将原本的点乘注意力分解为多个较小的注意力,使这些运算的组合形成原始注意力的低秩因式分解。
下表是不同transformer架构的复杂度汇总:
理论:
自注意力机制矩阵,context mapping matrix P,是低秩的。
左边的图,将奇异值分解在不同的层和头运用到P, 画出每10K个句子的归一化累积奇异值平均值,结果显示了清晰的lang-tail谱分析,这意味着P的大部分信息可以从前几个最大奇异值中恢复出来。
右边图,可视化了第128个最大奇异值的归一化累积奇异值的热图&#x