原文:https://zhuanlan.zhihu.com/p/18653363414
一、MiniMax-01 概述
这篇技术博客介绍了 MiniMax-01 系列模型,包括 MiniMax-Text-01(文本模型)和 MiniMax-VL-01(多模态模型)。该系列模型旨在突破现有大语言模型 (LLM) 和视觉语言模型 (VLM) 的性能瓶颈,在处理长上下文方面展现出显著优势。
二、MiniMax-01 的核心创新点
1. 线性注意力机制与高效扩展
-
线性注意力机制的选择:
-
MiniMax-01 选择了线性注意力机制,而非传统 Transformer 架构中的 softmax 注意力机制。这是因为线性注意力机制在理论上具有线性时间复杂度,更适合处理长序列。
-
具体来说,MiniMax-01 采用的是 闪电注意力 (Lightning Attention),这是对线性注意力机制的一种 I/O 感知优化实现,旨在解决现有线性注意力机制中计算效率的主要瓶颈——因果语言建模中的缓慢累积和 (cumsum) 操作。
-
核心创新:将注意力计算分为块内和块间两部分,分别使用左乘积和右乘积进行计算,从而避免了累积和操作,实现了理论上的线性复杂度。
-
性能优势:在实验中,闪电注意力机制在处理长序列时表现出稳定的训练速度,并且在大多数下游任务中与 softmax 注意力机制性能相当,甚至在检索任务上表现更优。
-
-
-
混合架构的探索:
-
为了弥补线性注意力机制在检索能力上的不足,MiniMax-01 探索了混合架构 (Hybrid-Lightning),即每隔 8 层用 softmax 注意力层替换闪电注意力层。
-
实验结果表明,混合架构在检索和推理任务上均优于纯 softmax 注意力模型,证明了其在长上下文处理方面的强大能力。
-
-
2. 混合专家 (MoE) 架构的优化
-
MiniMax-01 集成了 MoE 架构,拥有 32 个专家和 4560 亿总参数,其中每个 token 激活 459 亿参数,以最大化参数和计算能力。
-
为了解决 MoE 训练中的路由崩溃问题,MiniMax-01 采用了 全局路由策略,通过引入额外的全收集通信步骤,在不同专家并行 (EP) 组之间同步待处理 token 数量,从而实现负载均衡,减少 token 丢弃率。
-
此外,MiniMax-01 还对专家权重和数据并行性进行了精细划分,设计了 专家张量并行 (ETP) 和 专家数据并行 (EDP) 进程组,以实现存储和计算强度的最佳平衡。
3. 高效的训练与推理框架
为了提高推理效率,MiniMax-01 采用了以下策略:
-
训练框架优化:
-
针对闪电注意力和 MoE 架构,MiniMax-01 重新设计了训练框架,采用 专家并行 (EP) 和 专家张量并行 (ETP) 来实现 MoE 的全对全通信,以最小化 GPU 间通信开销。
-
为了支持无限扩展的上下文窗口,MiniMax-01 设计了 变长环注意力 (Varlen Ring Attention),以减少计算冗余,并改进了 线性注意力序列并行 (LASP) 算法,以充分利用设备的并行能力。
-
此外,MiniMax-01 还实现了针对闪电注意力推理的 CUDA 内核优化,实现了超过 75% 的模型浮点运算利用率 (MFU)。
-
-
推理框架优化:
-
-
批量内核融合:将多个内存密集型内核融合,并扩展支持所有批量输入,减少中间结果存储和内存访问操作。
-
分离的预填充和解码执行:将长度为 1 的 token 与长度大于 1 的 token 分开处理,并使用不同的 CUDA 流进行调度,以提高计算效率。
-
多级填充:根据输入序列长度动态选择计算规模,以最小化填充开销。
-
跨步批量矩阵乘法扩展:利用 NVIDIA cuBLAS 库中的优化函数,并集成张量内存加速器 (TMA) 的异步操作,以提高计算效率。
-
-
4. 长上下文训练策略
MiniMax-01 采用 数据打包 (data-packing) 技术,将不同长度的样本连接在一起,以减少计算浪费。
为了有效处理长上下文,MiniMax-01 采用 三阶段训练方法,逐步将上下文窗口扩展到 100 万 token,并最终在推理阶段外推到 400 万 token。
-
-
第一阶段:短上下文训练,序列长度限制在 8192 token。
-
第二阶段:扩展上下文训练,序列长度扩展到 1032192 token,并加入 50% 的长上下文提示。
-
第三阶段:短上下文偏好优化,序列长度恢复到 8192 token,并使用直接偏好优化 (DPO) 进行微调。
-
第四阶段:长上下文偏好优化,序列长度保持在 1032192 token,并使用 DPO 进行微调。
-
第五阶段:在线强化学习,序列长度保持在 8192 token。
-
三、MiniMax-01 与 DeepSeek-V3 对比
方面 | MiniMax-01 | DeepSeek-V3 |
模型架构 | 基于线性注意力机制,采用混合架构 (Hybrid-Lightning),并集成了 MoE 架构。 | 基于 Transformer 架构,采用 MLA 和 DeepSeekMoE 架构,并引入了辅助损失无关的负载均衡策略。 |
参数规模 | 4560 亿总参数,459 亿激活参数。 | 6710 亿总参数,370 亿激活参数。 |
训练数据 | 14.8 万亿 token,涵盖学术文献、书籍、网络内容和编程代码等。 | 14.8 万亿 token,涵盖高质量、多样化的文本数据,并优化了数学和编程样本的比例。 |
训练策略 | 采用三阶段训练方法,将上下文窗口扩展到 100 万 token,并最终外推到 400 万 token。 | 采用两阶段上下文扩展训练,将上下文窗口从 4K 扩展到 32K,再扩展到 128K。 |
训练成本 | 未明确说明,但强调其训练效率高。 | 278.8 万个 H800 GPU 小时,总成本约为 557.6 万美元。 |
多模态能力 | MiniMax-VL-01通过集成图像 编码器和图像适配器,扩展了 模型的多模态理解能力。 | 未提及多模态能力。 |
性能表现 | 在长上下文处理方面表现出色,在 Ruler 和 LongBench-V2 等长上下文基准测试中表现优异。 | 在大多数基准测试中表现优异尤其是在数学和编码任务上在长上下文理解任务中,DeepSeek-V3也展现出 强大的能力,例如在 FRAMES 和 LongBench v2 上表现优异。 |
优势 | -线性注意力机制和混合架构使其 在处理超长上下文时更具优势。 训练效率。 | - MLA 和 DeepSeekMoE 架构 在保证高效训练和推理的同时,实现了强大的性能。 模型性能。 训练成本。 |
局限性 | - 混合架构中仍保留部分 softmax 注意力层。可能影响长上下文处理 效率。 的更深入评估。 | - 推荐的部署单元较大,可能对小型团队造成负担。 |
四、总结
MiniMax-01 和 DeepSeek-V3 都是致力于突破现有 LLM 性能瓶颈的创新模型,各有侧重:
-
• MiniMax-01 更注重长上下文处理能力,其线性注意力机制和混合架构使其在处理超长序列时更具优势。
-
• DeepSeek-V3 则在保持高效训练和推理的同时,在数学和编码任务上表现出色,并且在长上下文理解方面也展现出强大的能力。
两者都采用了 MoE 架构和先进的训练策略,在提升模型性能的同时,也考虑了训练成本和效率。
未来,随着硬件和算法的不断发展,MiniMax-01 和 DeepSeek-V3 都有望在各自的领域取得更大的突破,推动 LLM 的发展。