MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS

本文是LLM系列文章,针对《MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》的翻译。

MOBA:长上下文LLMS的块注意混合

摘要

扩展有效上下文长度对于向通用人工智能(AGI)推进大型语言模型(LLM)至关重要。然而,传统注意力机制固有的计算复杂性的二次增加带来了令人望而却步的开销。现有的方法要么强加有强烈偏见的结构,如特定于任务的水槽或窗口注意力,要么从根本上将注意力机制修改为线性近似,其在复杂推理任务中的表现仍未得到充分探索。
在这项工作中,我们提出了一种遵循“少结构”原则的解决方案,允许模型自主确定参加的地点,而不是引入预定义的偏差。我们介绍了块注意力混合(MoBA),这是一种将专家混合(MoE)原理应用于注意力机制的创新方法。这种新颖的架构在长上下文任务上表现出卓越的性能,同时提供了一个关键优势:能够在完全和稀疏注意力之间无缝过渡,在不损害性能的情况下提高效率。MoBA已经被部署来支持Kimi的长上下文请求,并在LLM的高效注意力计算方面取得了重大进展。我们的代码在https://github.com/MoonshotAI/moba上可用。

1 引言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值