本文是LLM系列文章,针对《HyperAttention: Long-context Attention in Near-Linear Time》的翻译。
摘要
我们提出了一种名为“超注意力”的近似注意力机制,以解决大型语言模型(LLM)中使用的长上下文日益复杂所带来的计算挑战。最近的工作表明,在最坏的情况下,二次时间是必要的,除非注意力矩阵的条目是有界的或矩阵具有较低的稳定秩。我们引入了两个度量参数:(1)归一化注意力矩阵中的最大列范数,以及(2)检测并去除大条目后,未归一化注意力矩阵中行范数的比率。我们使用这些细粒度的参数来捕捉问题的硬度。尽管有以前的下界,但只要上述参数较小,即使矩阵具有无界条目或较大的稳定秩,我们也能够实现线性时间采样算法。HyperAttention采用模块化设计,可轻松集成其他快速低级实现,尤其是FlashAttention。根据经验,HyperAttention采用位置敏感哈希(LSH)来识别大型条目,优于现有方法,与FlashAttention等最先进的解决方案相比,速度显著提高。我们在各种不同的长上下文长度数据集上验证了HyperAttention的经验性能。例如,HyperAttention使ChatGLM2在32k上下文长度上的推理时间加快了50%,而困惑从5