MiniMax-01技术报告解读（一）模型架构_minimax-01: scaling foundation models with lightni-CSDN博客

本文链接：https://blog.csdn.net/Androiddddd/article/details/145182940

刚刚MiniMax发布了MiniMax-01，简单测试了效果，感觉不错。于是又把它的技术报告看了一下。这种报告看多了，就会多一个毛病，越来越觉得自己也能搞一个。

这篇文章我觉得最有意思的一句是对数据质量的强调“低质量数据在训练超过两个epoch后性能显著下降，而高质量数据可以有效地训练多达四个epoch”

MiniMax-01系列模型通过创新的Lightning Attention和专家混合（Mixture of Experts, MoE）架构，实现了在长上下文处理上的突破性进展。

Paper：MiniMax-01: Scaling Foundation Models with Lightning Attention
论文链接：https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
Github地址：https://github.com/MiniMax-AI/MiniMax-01
使用地址：https://hailuoai.com/

一、引言

近年来，大型语言模型（LLM）和视觉语言模型（VLM）在知识问答、复杂推理、数学、编程和视觉语言理解等任务上取得了显著进展。然而，大多数模型的上下文窗口长度通常在32K到256K token之间，这在实际应用中往往显得捉襟见肘。无论是处理一本专业书籍、协助整个编程项目，还是通过多示例学习最大化上下文学习的潜力，现有的上下文长度都显得不足。

过去两年中，上下文窗口的扩展主要依赖于更强大的GPU和更好的I/O感知的softmax注意力实现。然而，进一步扩展这些窗口面临着巨大的挑战，这源于Transformer架构固有的二次计算复杂度——随着长度的增加，计算需求远远超过硬件能力的提升速度。为了应对这一挑战，研究人员提出了多种方法来减少注意力机制的计算复杂度，包括稀疏注意力、线性注意力、长卷积、状态空间模型和线性RNN等。尽管这些方法在理论上具有潜力，但在商业规模的模型中应用有限。

MiniMax-01的目标是构建一个与领先商业模型性能相当，但上下文窗口长度提升一个数量级的模型。这一雄心勃勃的目标需要在网络架构、数据和计算之间找到平衡。MiniMax-01采用了混合架构，结合了闪电注意力和softmax注意力，并通过专家混合（MoE）架构最大化参数和计算能力，最终实现了在单台机器上处理超过100万token的能力。

在这里插入图片描述

二、模型架构

MiniMax-01的架构设计旨在在有限的资源下实现最佳性能，并更好地处理长序列。为了实现这一目标，模型采用了专家混合（MoE）方法，并尽可能使用线性注意力（Linear Attention）代替传统的softmax注意力。以下是对模型架构的详细解析。

在这里插入图片描述

2.1 专家混合（MoE）

专家混合（Mixture of Experts, MoE）是一种通过将多个前馈网络（FFN）专家组合在一起，每个token被路由到一个或多个专家的架构。这种设计不仅增强了模型的扩展性，还提高了计算效率。MiniMax-01的MoE架构包含32个专家，总参数量达到4560亿，每个token激活的参数量为459亿。

在这里插入图片描述

在MoE的训练过程中，每个专家都有一个容量限制，指定其可以处理的最大token数量。一旦达到容量，任何额外的token将被丢弃。为了确保负载平衡，MiniMax-01引入了一种全局路由策略，通过同步不同专家并行组（EP）中的token分布，减少了token丢弃率，从而提高了训练的稳定性。

在这里插入图片描述

2.2 线性注意力（Linear Attention）

线性注意力（Linear Attention）通过“右积核技巧”将传统的二次计算复杂度转化为线性复杂度，显著降低了长序列处理的计算负担。具体来说，线性注意力通过递归更新键值矩阵的乘积，避免了重复计算整个注意力矩阵，从而在推理过程中保持了恒定的计算复杂度。

MiniMax-01采用了Lightning Attention，这是一种I/O感知的线性注意力实现。Lightning Attention通过分块计算避免了因果语言建模中的累积求和操作，从而实现了理论上的线性复杂度。具体来说，Lightning Attention将注意力计算分为块内计算和块间计算两部分，块内计算使用左积，块间计算使用右积。这种分块策略确保了整体计算复杂度保持线性。

在这里插入图片描述

Lightning Attention的核心创新在于其分块技术。通过将查询（Q）、键（K）和值（V）矩阵沿行维度划分为多个块，Lightning Attention能够在每个块内独立计算注意力分数，从而避免了全局累积求和操作。这种设计不仅提高了计算效率，还使得模型能够处理更长的序列。

在这里插入图片描述

2.3 混合架构

MiniMax-01的最终架构结合了线性注意力和softmax注意力，每7个线性注意力层后跟随一个softmax注意力层。这种混合架构不仅提升了模型的推理能力，还在长上下文任务中表现出色。

具体来说，MiniMax-01的架构遵循Transformer风格，每个块包含一个通道混合器（注意力块）和一个特征混合器（MLP块）。通道混合器有两种类型：Lightning Attention和softmax注意力。特征混合器则是一个包含多个前馈网络（FFN）的MoE。为了确保MoE块的负载平衡，MiniMax-01提出了一种新的负载平衡策略，称为全局路由器（Global Router），该策略旨在保持训练的稳定性。

在MiniMax-01的最终架构中，线性注意力和softmax注意力机制以结构化模式集成。具体来说，每7个线性注意力层后跟随一个softmax注意力层，总共有80层。每个注意力模块由64个头组成，每个头的维度为128。softmax注意力层采用组查询注意力（GQA），组大小为8。旋转位置嵌入（RoPE）应用于一半的注意力头维度，基础频率设置为10,000。模型的隐藏大小配置为6144，每层包含32个专家，采用top-2路由策略。每个专家内的前馈网络隐藏维度为9216。