告别O(n²)！上海AI Lab开源Linear-MoE：线性注意力+MoE的终极缝合术

PaperWeekly

于 2025-06-06 13:43:27 发布

阅读量17

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247704242&idx=3&sn=425c705b61de2274c75c2a1e8fbd22f1&chksm=97305c89f6b2c7bfc68f5c8556bc1c7543eb5cedd5a5ac89fcb6ba38f42436eb9c819d8ad116&scene=126&sessionid=0

版权

近年来随着大语言模型的爆火，旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点，主要包括线性序列建模（如 Linear Attention、SSM、Linear RNN 等）和混合专家（Mixture-of-Experts, MoE）两部分。

这两部分分别都有了长足的进步，但两者的结合却鲜少有人研究，两者结合后的 Linear-MoE 架构开源实现更是完全缺失。

值得一提的是，近期广受好评的 MiniMax-01 模型（使用 Lightning Attention-MoE）和腾讯混元 TurboS 模型（使用 Mamba2-MoE）均属于 Linear-MoE 架构。

来自上海人工智能实验室团队的最新成果 Linear-MoE，首次系统性地实现了线性序列建模与 MoE 的高效结合，并开源了完整的技术框架，包括 Modeling 和 Training 两大部分，并支持层间混合架构。为下一代基础模型架构的研发提供了有价值的工具和经验。

论文地址：

https://arxiv.org/abs/2503.05447

项目地址：

https://github.com/OpenSparseLLMs/Linear-MoE

线性序列建模的崛起

过去两年，线性序列建模技术取得了显著进展，其核心优势在于线性时间复杂度的训练和恒定内存占用的推理。这类模型主要分为三大类：线性注意力（Linear Attention）、状态空间模型（SSM）和线性 RNN（Linear RNN），代表性工作包括 Lightning Attention、GLA、Mamba2、RWKV 等。

已有研究工作表明，这些模型实际上可以通过统一的递归形式进行表达，如下表所示。这也反映出，尽管三类方法分别出自不同的技术流派，但已逐渐收敛至统一的表达形式。

混合专家MoE成为事实标准

另外一方面，从国际上的 GPT-4 系列、Gemini 系列、Claude 系列到国内的 DeepSeek 系列、Qwen 系列、腾讯混元 LLM、字节豆包、MiniMax-01、Moonshot-Kimi 等，都在步伐一致地 All in MoE。其重要性不言而喻，本文不做过多展开。

Linear-MoE：模型架构与高效训练

Linear-MoE 的核心贡献在于构建了一个从 Modeling 到 Training 的完整系统，支持线性序列建模层与 MoE 层的灵活组合，同时兼容传统的 Softmax Attention Transformer 层，支持形成混合架构。其设计亮点包括：

1. 模块化架构：

LSM 层（线性序列建模层）：支持各类线性序列建模方法（如 Lightning Attention、Gated-DeltaNet、Mamba2 等）。
MoE 层：集成多种 MoE 实现（如 Qwen-MoE、DeepSeek-MoE、Mixtral-MoE），以及一种 Dense 实现（Llama3）。

2. 高效训练技术：

基于 Megatron-Core 框架开发，确保系统稳定性和可扩展性。
支持张量并行、流水线并行、专家并行、LASP（线性注意力序列并行）和 MegaBlocks 等优化技术，显著提升训练效率。

实验验证

大规模实验验证了 Linear-MoE 的优越性：

训练稳定：混合模型（线性 + Softmax Attention）比纯线性模型表现出更稳定的训练曲线。
训练效率：借助专家并行和 MegaBlocks，系统在超大参数规模下仍保持高吞吐量。
推理优势：线性模型的推理速度比传统架构快 2-5 倍，内存占用降低 50% 以上。
性能扩展：在不同规模的基准测试中，Linear-MoE 展现出良好的性能线性增长。

开源生态与未来展望

目前 Linear-MoE 已全面开源（https://github.com/OpenSparseLLMs/Linear-MoE），支持多种主流的线性序列建模方法和 MoE 实现。

这一工作不仅填补了线性建模与 MoE 结合的技术空白，还为社区提供了可复现的高效训练方案。未来将进一步探索 Linear-MoE 在长上下文理解、Vision-Language 模型架构中的应用潜力。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。