HyperAttention: Long-context Attention in Near-Linear Time

828 篇文章

已下架不支持订阅

本文提出了一种名为“超注意力”的机制,用于解决大型语言模型中的长上下文计算难题。通过引入新的度量参数,实现了线性时间复杂度的注意力采样算法,提升了处理效率。实验显示,HyperAttention在保持性能的同时,显著加速了推理速度,尤其在长上下文长度的情况下。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《HyperAttention: Long-context Attention in Near-Linear Time》的翻译。

HyperAttention:近线性时间中的长上下文注意

摘要

我们提出了一种名为“超注意力”的近似注意力机制,以解决大型语言模型(LLM)中使用的长上下文日益复杂所带来的计算挑战。最近的工作表明,在最坏的情况下,二次时间是必要的,除非注意力矩阵的条目是有界的或矩阵具有较低的稳定秩。我们引入了两个度量参数:(1)归一化注意力矩阵中的最大列范数,以及(2)检测并去除大条目后,未归一化注意力矩阵中行范数的比率。我们使用这些细粒度的参数来捕捉问题的硬度。尽管有以前的下界,但只要上述参数较小,即使矩阵具有无界条目或较大的稳定秩,我们也能够实现线性时间采样算法。HyperAttention采用模块化设计,可轻松集成其他快速低级实现,尤其是FlashAttention。根据经验,HyperAttention采用位置敏感哈希(LSH)来识别大型条目,优于现有方法,与FlashAttention等最先进的解决方案相比,速度显著提高。我们在各种不同的长上下文长度数据集上验证了HyperAttention的经验性能。例如,HyperAttention使ChatGLM2在32k上下文长度上的推理时间加快了50%,而困惑从5

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值