Tree Attention: Topology-Aware Decoding for Long-Context Attention on GPU Clusters

本文是LLM系列文章,针对《Tree Attention: Topology-Aware Decoding for Long-Context Attention on GPU Clusters》的翻译。

树注意力:GPU集群上长上下文注意力的拓扑感知解码

摘要

自注意力是现代Transformer架构的核心数学运算,由于其序列长度的二次复杂性,也是一个重要的计算瓶颈。在这项工作中,我们推导了标量能量函数,其梯度计算了自我注意块,从而阐明了自注意力的理论基础,提供了对操作的贝叶斯解释,并将其与Hopfield网络等基于能量的模型紧密联系起来。我们的公式表明,通过树约简可以并行有效地计算序列轴上的约简。我们的算法,用于在多个GPU上并行化注意力计算,使跨设备解码的执行速度比Ring attention等替代方法快得多(在我们的实验中快8倍),同时还需要更少的通信量,减少2倍的峰值内存。我们的代码可在此处公开获取。

1 引言

2 相关工作

3 自注意力

4 自注意力作为梯度

5 树注意力

6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值