自大模型技术爆发以来,作为中国大模型六小龙之一的MiniMax一直以在AI情感陪伴产品赛道的突出成绩引人注目。然而继今年9月发布全模态模型家族后,近日MiniMax团队在基础模型研发方面又取得突破性进展——完全权重开源发布MiniMax - 01系列模型!MiniMax - 01采用线性注意创新架构,完成对传统Transformer架构的挑战和突破,是业界模型首次如此⼤规模地依赖线性注意⼒。线性注意力机制将计算复杂度由二次方降至线性,显著提升长序列处理效率。这一技术突破,不仅使MiniMax - 01在长上下文处理方面表现出色,更在多项基准测试中与DeepSeek-v3、GPT-4o等顶尖开闭源模型相媲美。我们翻译整理了MiniMax-01技术报告分享给大家,一同见证国产开源大模型的一大高光时刻。
英文报告原文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
|报告看****点
-
线性注意力机制:MiniMax-01系列采用创新的线性注意力机制,实现长序列处理的计算效率飞跃,处理能力达到百万token级别。
-
混合架构设计:结合线性注意力和softmax注意力,MiniMax-01在保持高检索性能的同时,增强了模型的长上下文理解能力。
-
专家混合模型(MoE):通过32个专家的协作,模型参数达到4560亿,每个token激活459亿参数,显著提升了模型的扩展性和效率。
-
高效计算优化:开发了针对MoE和线性注意力的优化策略,实现了超过75%的模型浮点运算利用率,支持大规模模型训练和推理。
-
开源合作:MiniMax-01系列模型代码将公开发布,鼓励社区参与,共同推动大模型技术的发展。
-
性能卓越:在多项基准测试中,MiniMax-01展现出与顶级模型相媲美的性能,特别是在长上下文任务上。
-
未来发展方向:MiniMax团队将继续探索更高效的模型架构,提升模型在高级编程任务上的表现,并扩展长上下文推理的评估。
视觉生成框架:新的视觉生成框架:提出了一种新的视觉自回归(VAR)模型,采用多尺度自回归范式和“下一个尺度预测”方法,为计算机视觉中的自回归算法设计提供了新的见解。实证验证了VAR模型的扩展性和零样本泛化能力:新的视觉生成框架:实证验证:初步验证了VAR模型的扩展法则和零样本泛化潜力,这些特性最初模仿了大语言模型(LLMs)的吸引力。
******|******内容概览
0.摘要
我们推出了MiniMax-01系列,包括MiniMax-Text-01和MiniMax-VL-01。MiniMax-Text-01在处理长上下文时具有卓越的能力,并且性能可与顶级模型媲美。其核心在于闪电注意机制及其高效的缩放能力。为了最大化计算能力,我们将它与混合专家(MoE)相结合,创建了一个拥有32个专家、总参数为4560亿的模型,其中每个token激活了459亿个参数。我们开发了一种针对MoE和闪电注意力优化的并行策略以及高效计算通信重叠技术。这种方法使我们在包含数百亿参数的模型上对跨越数百万token的上下文进行有效的训练和推理成为可能。MiniMax-Text-01在训练期间可以达到高达100万token的上下文窗口,在推断过程中可以扩展到400万个token,同时保持较低的成本。我们的视觉语言模型MiniMax-VL-01是通过使用5120亿视觉语言token继续训练而构建的。在标准基准和内部基准上的实验表明,我们的模型能够匹配GPT-4o和Claude-3.5-Sonnet等最先进的模型的表现,同时提供20-32倍更长的上下文窗口。我们将在https://github.com/MiniMax-AI公开发布MiniMax-01。
图1 |基准性能。(a)MiniMax-Text-01在核心文本基准上的表现。(b)MiniMax-VL-01在核心多模态基准上的表现。©MiniMax-Text-01在长上下文RULER基准上的表现。提出了领先的商业和开源模型的性能作为参考。
- 引言
大型语言模型(LLMs)和视觉语言模型(VLMs)近年来取得了快速进展,在知识问答、复杂推理、数学、编码以及视觉语言理解等任务上表现出色。目前大多数模型的上下文窗口范围从32K到256K个token不等。然而,这些长度往往无法满足实际需求——无论是使用专业书籍作为背景,协助整个编程项目,还是通过多次示例来最大化上下文学习的潜力。
过去两年中,上下文窗口的扩展主要得益于更强大的GPU和更好的I/O感知softmax注意力实现。然而,进一步扩大这些窗口证明是具有挑战性的。这种限制源于Transformer架构固有的二次计算复杂性——进一步延长会导致计算需求增长得比硬件能力所能匹配的速度要快得多。为了解决这一挑战,研究人员提出了各种方法来降低注意机制的计算复杂性如:稀疏注意,线性注意,长卷积,状态空间模型,以及线性RNN。尽管它们在理论上很有前景,但在商业规模的模型中的应用却有限。
在本报告中,我们旨在建立一个模型,该模型的性能与领先的商业模型相匹配,并提供一个比上下文窗口长一个数量级的上下文窗口。这个雄心勃勃的目标需要仔细平衡多个因素:网络架构、数据和计算。
研究从选择最有前途的架构开始,然后优化底层训练和推理框架以支持该架构。对于网络结构,我们需要一种不仅理论上合理,而且在实际应用中特别是在长上下文处理中高效的线性注意力。经过广泛的实验后,我们选择了主要使用闪电注意力的混合架构,这是一种I/O感知的线性注意力变体实现。在该架构中,每个七层transnormer块后面跟着一个具有softmax注意力的一个transformer块。
我们根据一个实际的约束确定了模型的总参数:使用8位量化在一台机器上处理超过100万个token的能力,最多有8块GPU和640 GB内存。为了最大化参数和计算能力,我们实现了专家混合(MoE)。我们全面了考虑训练资源、推理资源和最终模型性能,旨在在这三个因素之间找到更好的平衡。通过广泛的实验,我们确定了最终的模型规格:4560亿个参数,459亿个激活参数,以及32个专家。
现有的分布式训练和推理框架主要针对softmax注意力进行了优化。然而,新型架构集成了闪电注意力、softmax注意力和MoE,这需要对我们的训练和推理框架进行全面重新设计。此外,该框架必须具备支持具有数百亿参数的模型以及上下文窗口扩展到数百万个token的能力。为此,我们使用专家并行(EP)和专家张量并行(ETP)在MoE中实现全对全通信,以尽量减少与GPU间通信相关的开销。为了促进上下文窗口无限扩展,我们设计了varlen环注意机制来减少计算中的冗余,并改进了线性注意力序列并行(LASP),以充分利用设备的并行能力。此外,我们已经为闪电注意力推理量身定制了一套全面的CUDA内核,实现了超过75%的模型浮点运算利用率(MFU)。
在架构设计和计算优化的基础上,我们训练了基础语言模型MiniMax-Text-01。我们的预训练过程始于通过严格的清理、基于奖励的质量提升以及更好的数据混合平衡,精心策划了一个多样且高质量的语料库,并通过系统性的重复感知测试进行了验证。 为了充分利用架构的长上下文能力,我们对超参数进行了深入分析,并提出了一种三阶段训练程序,成功将上下文窗口扩展到一百万token。在对齐阶段,通过精确调整奖励维度和多阶段训练方法来激励模型的各种功能,特别是在长上下文和现实场景方面。随后,我们将视觉能力引入语言模型中,通过集成一个轻量级的Vision Transformer (ViT)模块,从而创建我们的视觉语言模型MiniMax-VL-01。MiniMax-VL-01经过额外的训练,使用了5120亿个视觉语言token进行四阶段训练流程。最终阶段专门设计用于优化用户体验。
对核心学术基准的综合评估表明,两个模型在文本和视觉语言任务中都达到了与闭源顶级模型相当的表现水平,如图1(a、b)所示。对于超过20万字长的上下文,我们的模型表现明显更好,如图1(c)所示。除了学术基准外,我们还使用从实际应用中得出的内部基准来评估模型的表现,并表明我们的模型在这些场景中的表现是顶级的。除了其性能之外,我们的模型还在预填充延迟方面表现出显著的优势,这归功于其新颖的架构,如图2所示。
图2 |不同模型的预填充延迟。MiniMax-Text-01 和 Llama3-70B 模型在配备张量并行且设置为 8 的 H800 GPU 上进行测试,利用具有 8 位权重仅量化(W8A16)的自定义推理框架。其他模型通过其官方 API 进行测试。在每个模型所支持的最大长度范围内,选择了足够数量的均匀分布点进行测试。去除异常值后,数据用二次函数进行拟合。
我们的贡献总结如下:
1.我们构建的模型可以在标准学术基准上与顶级闭源模型相媲美。此外,该模型支持多达 400 万个令牌的上下文输入,在长上下文评估中展示了出色的性能。
2.我们展示了线性注意力的首次成功大规模实施。虽然以前已经研究过线性注意力,但从未以这种规模部署过。我们提供了有关算法设计和工程优化的全面详细信息。
3.我们概述了探索各种模型、数据集、评估和算法的实用方法和实验方法,这可能作为有价值的参考。
4.我们公开发布权重并提供高性价比的 API,旨在帮助他人开发出超越当前限制的模型。
- 模型架构
在这一部分,我们介绍了我们的网络架构设计。为了在有限的资源内实现最优性能,并更好地处理更长序列,我们采用了MoE方法,并尽可能地使用线性注意力,而不是标准Transformer中使用的传统softmax注意力。
为了便于更直观的理解,我们在图3中展示了主要的架构。我们的设计遵循Transformer风格的块,每个块包括一个通道混合器(注意力块)和一个特征混合器(MLP模块)。我们使用两种类型的通道混合器:闪电注意力和softmax注意力。特征混合器是一个包含多个前馈网络(FFN)的MoE。为了确保在MoE块中的负载均衡,我们提出了一种新的由GShard启发的负载平衡策略,我们称之为全局路由器。该策略旨在保持训练稳定性。此外还集成了DeepNorm以增强整体性能。
最终的MiniMax-Text-01架构将线性注意力和softmax注意力机制以结构化的方式整合在一起。具体来说,每7个transnormer块之后放置一个带有softmax注意力的transformer块,总共为80层。每个注意力模块由64个头组成,每个头的维度为128。softmax注意力层采用组查询注意力(Group Query Attention,GQA),组大小为8。一半的注意力头维度应用旋转位置编码(Rotary Position Embedding,RoPE),基础频率设置为10,000。模型的隐藏尺寸配置为6144,每一层包含32个专家,并使用top-2路由策略。每个专家内的前馈网络具有9216的隐藏维度。总共有4560亿参数,其中459亿参数在处理每个标记时被激活。
在接下来的部分中,我们将深入探讨对模型架构的考虑,即不同注意力机制的集成、MoE 和线性注意力之间的协同作用、超参数选择的理由以及根据缩放定律确定模型大小的方法。
图 3|MiniMax-Text-01的架构
2.1.专家混合
MoE提供了一种途径,与密集版本相比,可以提高可扩展性和效率。通常,MoE是特征混合层(Fedus)中前馈网络(FFN)的替代品,它由多个FFN专家组成,每个token被路由到一个或多个这些专家。具体来说,对于输入token ,其对应的输出隐藏状态
是这样计算的:
其中,E代表专家总数, 是门的权重,
表示第i个专家,TopK(·)表示在所有𝐸位专家中保留前𝑘分的操作,并将剩余分数设置为-∞。
基于MoE的LLM训练可以分为token-drop和dropless两种。我们采用token-drop策略来提高训练效率。通过这种方法,每个专家都被分配了一个容量限制,规定了它可以处理的最大token数。一旦达到这个容量,任何额外路由到该专家的token都会被丢弃。
为了评估MoE架构的有效性,我们对一个具有70亿参数的密集模型和一个具有20亿激活参数的MoE模型进行了比较研究。这些结果如图4所示,在相同的计算预算下,MoE 模型在各种基准上都显著优于密集模型,包括HellaSwag ,WinoGrande,Natural Questions,PIQA 和TriviaQA 。当扩展到更大的模型时,我们会遇到路由崩溃的问题,这是由于分配给token的集中分布引起的。为了解决这个问题,我们将一种简单的全局路由策略引入GShard辅助损失中以实现更好的负载均衡。
图4 |计算量比较:MoE与密集模型在各种基准测试上的对比。两个模型均在1万亿token上进行训练。灰色虚线表示两个模型在达到相同性能时所需的计算量差异。
- 辅助损失
为了保证可微性,定义辅助损失为:
其中 表示辅助损失的系数,𝑓𝑖表示分配给第i个专家的token分数,𝑚𝑖 是专家i的平均路由概率。
- 全局路由
GPU内存大小限制了LLM训练中的微批处理大小,导致单个专家并行(EP)组内的token分布大幅波动。此外,不同EP组之间的token分布也有所不同,可能导致负载不平衡,其中一个EP组的专家可能过载而另一个则未充分利用。为了解决这个问题,我们在EP组之间实施了一个全局token调度策略。具体来说,在分发token到不同的EP组之前,我们引入了一步额外的allgather通信步骤来同步每个专家等待处理的token数量。在相同的容量约束下,这个全局路由机制可以有效降低整体token丢包率,从而保证训练的稳定性。
2.2 线性注意力
线性注意力利用“正确的产品内核技巧”,将二次计算复杂度转化为线性复杂度,如图5所示。
图 5|softmax 注意力(左)和线性注意力(右)的计算图示。输入长度为 N,特征维度为 d ,其中 𝑑 ≪ 𝑁 。同一框中的张量与计算相关联。线性化公式允许 𝑂(𝑁)时间和空间复杂度。
以TransNormer为例,规范注意机制可以写成:
其中,Q、K和V ∈ ℝ𝑛×𝑑分别是查询矩阵、键矩阵和值矩阵,n为序列长度,d为特征维度。该方程可以使用右矩阵乘法转换为其线性变体:
线性公式便于高效的递归预测,训练复杂度为𝑂(𝑛𝑑2)。此外,线性注意力确保了计算复杂度始终为𝑂(𝑑2),与序列长度无关。这是通过递归更新项K⊤V来实现的,从而避免了重复计算整个注意矩阵的需求。相比之下,在推断过程中,softmax注意力需要 𝑂(𝑛𝑑2) 的复杂度。
在处理因果语言建模任务时,正确产品的有效性受到损害,需要计算cumsum。这一限制阻碍了高效并行计算的实现,这可能解释了为什么尽管Brébisson等人早在九年前就提出了这种线性注意力机制,但目前领先的开源LLM包括LLaMA3、Qwen2.5、DeepSeekV3和Mistral都没有采用这种线性注意力机制。
2.2.1. 闪电注意力
闪电注意力是一种I/O感知的TransNormer优化实现。这种方法确定了现有线性注意力机制计算效率的主要瓶颈:因果语言建模中缓慢的cumsum操作 。为了解决这个问题,Lightning Attention 提出了一种新颖的分块技术,有效地绕过了cumsum操作。关键创新在于将注意力计算策略性地分为两个不同的组件:块内计算和块间运算。左积注意力计算用于块内的操作,而右积则用于块间的操作。这种划分至关重要,因为可以显著减小块内的尺寸,从而确保整体计算复杂度保持线性。
请注意,闪电注意力最初是由我们团队成员在 Qin 等人(2024c)中提出的。为了完整性起见,我们回顾了一些核心过程,以阐明为什么它可以在实践中实现理论线性复杂度。出于分析可处理性的原因,在以下推导过程中,我们故意忽略了归一化、SiLU 激活和门控机制的考虑。
让我们从闪电注意力的前向传递开始。因果注意力计算中的左积操作定义为:
其中,M𝑡𝑠 = 1 if 𝑡 ≥ 𝑠,否则为0。右积操作可以递归公式计算如下:
需要注意的是,虽然等式5表现出线性计算复杂度,但本质上是无法并行化的。
实现闪电注意力的基本概念是利用分块技术来计算注意力分数。具体来说,矩阵 QQ、KK、VV 沿着行维度被划分为两个不同的块。:
通过展开等式4,我们得到以下表达式(注意kv0 = 0):
以块的形式重写,我们有:
如图所示,块内
可以使用左积操作,而块间Q1KV0可以使用右积操作。请注意,还可以进一步使用相同策略对块内进行划分:
要计算第二个块,我们使用KV1 = kv𝑚,这可以通过以下方式计算:
其中,KV0 = kv0。通过递归地应用上述将矩阵分割为多个块的策略,实际计算复杂度可以降低到线性。闪电注意力的最终时间复杂度是𝑂(𝑛𝑑2 + 𝑛𝐵𝑑),其中B是块大小。算法1说明了闪电注意力前向传递的IO感知实现。
2.2.2. 闪电注意力的有效性
尽管闪电注意力在小规模实验中表现出良好的前景和竞争力,但在大规模设置下的下游任务中的扩展行为和能力仍未被探索。为了缩小差距,我们进行了一系列的扩展性实验来评估闪电注意力机制相对于softmax注意力的可扩展性,并同时验证其在广泛下游任务上的性能。值得注意的是,在我们的实验过程中,我们观察到闪电注意力具有有限的检索能力。这一发现启发了我们去探索一种混合方法(Hybrid-lightning),该方法结合了闪电和softmax注意力的优点,通过每八层交替使用softmax注意力来增强检索性能。
我们坚持由Kaplan等人建立的FLOPs计算方法。为了我们的分析,我们定义以下变量:l(层数),d(模型维度),h(注意力头数),b(批量大小)和n(序列长度)。模型参数和FLOPs清单见表1。
表1 |模型参数和FLOPs比较。对于缩放定律计算,排除嵌入参数和其他次要项以改善与拟合结果的对齐。
2.2.2.1 实验设置
我们对各种规模的模型进行了训练:7000万、1.6亿、4.1亿、10亿、30亿和70亿参数。每个模型都在一个包含多达3000亿个token的数据集上进行训练,上下文长度为8192。我们的训练方法遵循Chinchilla提出的方案,在该方案中,训练损失是测试性能的一个直接指标。
对于每种模型架构和训练序列长度,我们都保持了统一的全局批次大小为400万个token,Adam优化器被采用,并配置了学习率为3e-4和权重衰减为0.1。由于计算资源有限,在所有实验中都应用了一个固定的学习率调度程序。
我们使用了一组不同的评估基准,包括BoolQ,PIQA,SIQA,HellaSwag,WinoGrande,ARC(简单和挑战变体),OpenBookQA,Needle in A Haystack(NIAH),以及SCROLLS。每个基准都评估了模型的不同能力。
2.2.2.2 缩放定律
我们根据上述设置进行实验,改变模型大小(N)和数据集大小(D),以不同的计算预算(C)观察相应的训练损失(L),作为测试损失的估计器。我们首先建立 L 和 C 之间的幂律关系,遵循Chinchilla的方法使用拟合曲线,我们得出最优模型大小Nopt∝Ca和最优数据集大小Dopt ∝Cb的系数。原始缩放定律使用 𝐿(𝑋) = (𝑋0/𝑋)𝛼𝑋 ,而后续研究采用𝐿(𝑋) = 𝜖 + (𝑋0/𝑋)𝛼𝑋 进行更好的拟合,其中𝜖表示不可约损失。为简单起见,我们将这些形式统一为 𝐿(𝑋) = 𝛽𝑋 𝑋𝛼𝑋,便于基于𝛼𝑋和𝛽𝑋直接比较缩放能力。缩放定律的总结如表2和图6所示。可以直观地理解,在相同的计算预算下,具有闪电注意力的模型倾向于利用更多的参数和token,但它们与纯softmax 注意力相比实现更低的损失。
表 2|尺度律总结。它展示了损失(LL)、最优模型大小(𝑁𝑜𝑝𝑡)和最优数据集大小(𝐷𝑜𝑝𝑡)与计算预算(C)之间的关系。研究表明,在相同的预算下,混合模型使用更多的参数和数据,但能够实现更低的损失。
图6 |标度定律的总结。训练曲线(左)跨越了从70M到7B参数的模型。最优模型大小(中)和训练token(右)是根据指定的计算预算估计得出的。
2.2.2.3 下游工序的性能。
我们在图7中展示了下游任务的基准测试结果。闪电注意力在大多数下游任务中表现相当,但在NIAH任务中除外。这表明线性注意力在语言建模能力上与Transformer模型相似,但在检索任务中表现不足,因此不适用于大型语言模型(LLMs)。然而,混合 Lightning 注意力不仅匹配而且超越了 softmax 注意力的检索和外推能力,使其非常适合 LLM 的上下文学习。
图 7|更大的模型和混合-Lightning注意力机制在各项基准测试中表现最佳。性能评估基于 CSR(常识推理)、NIAH(大海捞针)和 SCROLLS 基准测试,使用参数规模从 410M 到 7B 的三种注意力机制模型进行评估。
2.2.2.4速度
我们通过测量每秒每块GPU处理的标记数量(TGS),评估了具有30亿参数的Softmax注意力、闪电注意力和混合闪电注意力模型的端到端训练速度。为了全面性,我们还将HGRN2和Mamba2等流行的线性模型纳入评估。在速度基准测试中,训练的上下文长度逐步增加,直到单节点H800 GPU达到内存限制。正如图8所示,闪电注意力在序列长度变化时保持恒定的训练速度,并且是唯一超越FlashAttention2的线性模型。
图8 |对包括Softmax、闪电注意力、混合闪电注意力、HGRN2和Mamba2在内的各种注意力机制的训练速度进行了基准测试,序列长度范围从1,024到65,536。性能以训练速度衡量,报告为每秒每块GPU处理的标记数量(TGS)。
2.2.3混合架构
我们的初步实验表明,混合架构取得了令人鼓舞的结果,这促使我们通过两种变体进一步探索其潜力:混合-cosformer2 和混合-hgrn2。在混合-cosformer2 模型中,我们将 cosformer2 架构中的线性注意力层以每八层为间隔替换为Softmax注意力层。这一替换策略同样应用于混合-hgrn2 模型。我们在一致的设置下进行实验,以评估这些变体的下游性能。根据表3总结的结果,混合闪电模型实现了最佳性能。
表3 |基准测试各种具有十亿参数的混合线性模型。我们给出了平均CSR分数、NIAH加权平均准确度和SCROLLS平均得分。更高的分数表示在所有任务中表现更好。缩写:TGS(每秒每个GPU的token数),HS(HellaSwag),WG(WinoGrande),OBQA(OpenBookQA),NIAH,以及SCR(SCROLLS)。
除了线性模型,滑动窗口注意力也可以通过适当调整窗口大小来实现线性的计算复杂度。由于它基于softmax 注意力,因此它是评估线性架构的稳健基线。因此,我们采用了混合窗口方法,每八层用全 softmax 注意力替换滑动窗口注意力。我们评估了从 256 到 1024 的各种 SWA 窗口尺寸。我们的结果表明,较大的窗口尺寸会导致训练速度比混合闪电模型慢。为了在等速条件下比较这些模型,我们没有考虑大于 1024 的窗口尺寸。如表 4 所示,在所有指标中,混合闪电模型都优于其他所有模型,特别是在 NIAH 基准测试中表现尤为突出。
表4 |混合闪电和混合窗口模型的基准比较。指标包括平均CSR分数、加权NIAH准确度和平均SCROLLS分数。更高的分数表示在所有任务中表现更好。缩写:PS(参数大小,十亿),W.S.(SWA的窗口大小),HS(HellaSwag),WG(WinoGrande),OBQA(OpenBookQA),NIAH,SCR(SCROLLS),TGS(每秒每个GPU的token)。
2.2.4. 讨论
基于我们对缩放定律实验、下游性能和速度比较的分析,我们得出结论:虽然纯线性注意力模型在计算上是高效的,但它们并不适合于LLMs。这是由于它们固有的无法执行检索的能力,而这种能力是上下文学习所必需的。相比之下,我们的混合模型不仅匹配而且在检索和外推任务中都超越了softmax注意力。这个结果有些出乎意料。为了理解这一现象,请考虑以下对softmax注意力的解释:
它可以重写为线性递归形式:
注意到闪电注意力的线性递归形式如下:
softmax 注意力机制可以被解释为一个线性RNN。在每个时间步t上,隐藏状态从初始时间t0 = 1开始重新计算,这个过程通常被称为“阅读一本书”。这种方法使模型能够通过系统地回顾先前的数据来准确保留输入信息。相比之下,线性模型缺乏这种重新计算的过程,这阻碍了它们有效地保留输入数据的能力。
让我们将RNN的容量定义为其循环状态的大小。仔细检查方程11,我们可以推断出softmax注意力的容量是𝑂(𝑑)。相比之下,如等式12所示,闪电注意力的容量为𝑂(𝑑2/ℎ)。鉴于d>h,可以得出闪电注意力比softmax注意力具有更大的容量。因此,混合-闪电模型在检索和外推能力方面优于仅依赖于softmax注意力的模型。
2.3. MoE模块消融实验
基于前文的结论,我们进行了两组额外的消融实验来验证在更大的范围内MoE架构中模块的选择:
(1)混合闪电注意力与softmax 注意力:为了验证混合闪电注意力在MoE中的优势。
(2)预层归一化与后层归一化:在我们的混合结构中,模型的有效深度起着重要作用。因此,我们希望为深层模型找到一个更好的归一化算法。
混合闪电注意力与softmax 注意力。我们在MoE架构中对softmax 注意力和混合闪电注意力进行了小型比较分析。具体来说,我们使用一个具有280亿参数的MoE模型作为基线模型,并利用其中50亿激活参数来实现softmax 注意力。对于基线模型中的每8个连续层,我们将前7层的softmax 注意力系统地替换为闪电注意力。基线模型和修改后的模型均在1万亿token上进行训练。如表5所示,结果表明用闪电注意力替换某些softmax 注意力层可以提高大多数基准上的准确率。
预层归一化与后层归一化的对比。预层归一化(PreNorm),在残差连接和注意力机制之前应用归一化层,在LLMs中表现出增强的稳定性和性能。由于PreNorm允许梯度通过残差连接更直接地从输出流向输入,一定程度上绕过了子层,从而减少了模型的有效深度。相比之下,后层归一化(PostNorm) 在残差连接和注意力机制之后应用归一化,从而保留了模型的有效深度。然而,PostNorm容易出现消失和爆炸梯度的问题,在训练LLM时会带来重大挑战。大多数现有的LLMs主要使用PreNorm,因为传统Transformer架构中较宽和较深的网络之间的性能差异通常可以忽略不计,并且优先考虑训练稳定性。
我们在具有93亿个激活参数和总共600亿个参数的模型上进行了实验,每个模型由使用不同标准化方法的48层组成。两个模型都在5000亿个token上进行训练。对于PostNorm,我们利用DeepNorm来确保更稳定的训练。如表5所示,在所有评估指标中,PostNorm始终优于PreNorm。
表 5 |模块消融。缩写:BBH(BIG-Bench Hard),DROP(段落离散推理),MMLU(大规模多任务语言理解),CMMLU(中文大规模多任务语言理解),GSM8k(小学数学 8K),ARC-C(Arc-Challenge),WG(WinoGrande)。
2.4. 模型规格
在最终确定模型模块的架构后,接下来的步骤是扩展模型规模,这需要对模型的各种维度上的超参数进行细致的设计。我们的主要目标是在性能和推理效率之间取得平衡。单设备推理相比多设备实现具有更高的效率,因为它消除了跨机器通信开销。因此,我们将模型的总参数限制为500B,确保在8×80G配置下,对于最多1M token的序列,在8位量化的情况下与单节点推理兼容。鉴于我们有限的训练预算,我们制定了以下优化问题来确定最佳参数分配:
其中,L表示损失,Pall和Pact分别代表总参数计数和激活参数计数,T是训练token的数量,Ccompute表示计算成本(取决于参数计数和数据消耗),而C则表示预算约束。
通过小规模模型的对比实验,我们首先确定了几个关键变量的最佳范围:
(1)softmax 和线性注意力机制之间的混合比例;
(2)模型架构的深度与宽度比;
(3)线性注意力内存大小与隐藏层大小的比例;
(4)激活FFN和注意力的比例;
(5)利用RoPE进行softmax 注意力的维度比例。
我们的实验表明,混合架构对层深度具有特定的敏感性,更深的模型始终优于较浅的对应物。值得注意的是,浅层模型需要显著更多的softmax注意力层才能达到可比性能,这突显了深层结构的效率优势。我们还观察到增加线性注意力内存大小可以显著提高模型性能,并在一半的softmax注意力维度上实施RoPE可以在不降低性能的情况下实现长度外推。
基于这些优化的架构变量,我们采用已建立的缩放定律来确定最佳模型大小。我们在5000亿个token中训练了具有从4400万到12亿激活参数的模型,并利用了16、32和64位专家。然而,我们发现当外推到一个更大的93亿参数模型时,这些方法的预测变得不可靠。为了克服这一局限性并实现更准确的预测,我们提出了以下公式:
其中, 𝐿(𝑃act, 𝑇 |𝐸) 表示在专家数量条件下的损失函数,a、b、c、d、α、β和γ是与专家数量相关的拟合参数。基于式(13)和式(14)的预测结果,我们确定了一个候选模型,该模型具有459亿个激活参数和4560亿个总参数,并将其作为最佳配置。
- 计算优化
在这一部分,我们介绍了我们的计算部分,包括训练和推理。在这个项目中,我们有一个动态变化的GPU集群,其中H800 GPU的数量从1500到2500不等。一个高效的架构需要强大的实施优化来充分挖掘其大规模计算优势。为了将我们的新架构扩展到必要的规模,我们提出了三个关键的优化策略,主要解决以下三个挑战:
1.在专家混合模型(MoE)架构的训练过程中,减轻全对全通信开销是一个持续性的挑战。我们为专家选择的配置,特别是选择大型模型,会对GPU内存产生巨大需求。因此,主要的挑战在于在内存利用率、计算效率和全对全通信开销之间实现最佳平衡。
2.在训练和推理中,我们努力支持至少100万个token上下文窗口,因此在如此广泛的上下文窗口内准确分配token对于这个庞大的模型来说至关重要。然而,这种必要性不可避免地引入了额外的通信开销。因此,在我们的混合架构背景下设计策略来最小化这一开销是一项重大挑战。
3.当前的闪电注意机制实现是针对训练过程进行具体优化,但在推理场景中,挑战在于有效管理现实世界的批量输入,这些输入可能包含可变序列长度和特定输入,并且包括前缀缓存。
值得注意的是,目前业界现有的开源框架缺乏必要的成熟技术支撑来充分应对这些挑战。因此我们独立全面地重新设计了我们的分布式训练和推理框架,从而成功以期望的效率水平解决了这些问题。
3.1. MoE优化
优化MoE(Mixture of Experts)架构的主要目标是减少通信开销,特别是在使用全对全(a2a)通信的MoE模型中。为了解决这个问题,我们实施了一种基于token分组的重叠方案,如图9所示。在这个方案中,a2a通信在专家并行(EP)通信组内进行,并且它与来自不同专家组的token处理重叠。为了确保通信结果的正确性,我们限制每个ProcessGroup顺序执行通信操作符。因此,不同组之间的a2a通信不能重叠,导致出现空闲时间。
图 9|专家并行(EP)重叠示意图。将标记分成两组,从而使不同组之间的通信可以与计算重叠进行。
这种方法导致了显著的性能改进。然而,在更详细的分析中,我们发现MiniMax-Text-01模型专家配置的一个关键权衡。当使用Tensor Parallelism (TP)来划分专家参数时,计算强度变得过低,从而阻碍了计算效率。但是,选择不使用TP会导致参数数量过大,这需要激活更大的Pipeline Parallelism (PP)配置。挑战在于,PP并不减少存储激活所需的内存占用,从而降低训练速度。因此,迫切需要开发一种新的参数分区策略来平衡内存使用和计算强度,以优化特定模型和任务的训练过程。
为了实现更高的效率,我们首先引入了一个新的ProcessGroup,称为ETP(专家张量并行),它专门用于管理专家的权重分区。同时,我们还提出了另一个独特的ProcessGroup,名为EDP(专家数据并行),以封装相同专家的数据并行性。在我们的系统中,我们将参与训练的GPU总数定义为world_size。该系统必须满足两个关键条件:
和
该配置赋予了MoE组件定义专家分布、管理专家权重分区以及独立配置ZeRO(零冗余优化器)算法的灵活性。基于此实现,我们能够完全将MoE组件的并行策略与非MoE组件的并行策略分离。
在此基础上,我们灵活配置了ETP以实现内存使用和计算强度之间的最佳平衡。此外,为了减轻通信开销,我们设计了一个EP-ETP重叠策略。该策略旨在最大限度地利用网络资源和计算资源,如图10(a)所示。
由于同一进程组内的通信必须顺序执行,因此较长的计算时间不仅有利于与更多通信重叠,而且还会为不同进程组之间的通信创造更多的重叠机会,从而如图10(b)所示提高整体性能。
在确定组数时,必须考虑几个权衡。理论上,只有将工作量分成足够多的组,才能实现通信和计算之间的充分重叠,如图10(c)所示。然而,在实践中,过多的组会显著增加调度的复杂性,并引入CPU瓶颈的风险。
图10 |EP-ETP重叠示例。(a) EP-ETP与较低计算部分的重叠。(b) EP-ETP与较高计算部分的重叠。© EP-ETP与较少组的重叠。与(a)和(b)相比,它表明如果计算时间成本更高,则效率会更好。与(b)和©相比,它显示了较少的组会导致重叠不足。
鉴于ETP(专家张量并行)在整体MoE(混合专家模型)架构中的比例并不大,因此根据具体上下文和要求进行调整至关重要。
通过上述优化策略,我们在MiniMax-Text-01模型的MoE(专家混合)结构中实现了针对特定专家规格的存储和计算强度平衡配置。此外,在这些优化的基础上,我们减少了MoE组件的纯通信开销,与预优化状态相比降低了50%,从而显著提高了训练效率。
3.2 长上下文优化
在长上下文训练中,一个显著的挑战是真实训练样本难以标准化为统一长度。使用填充使样本具有相同长度的传统方法会导致大量的计算浪费。在1M序列长度规模的训练背景下,这种浪费变得尤为严重。为了解决这个问题,在训练过程中我们采用了一种数据格式化技术,其中不同的样本沿着序列维度端到端地连接在一起。我们将此技术称为“数据打包”。这种格式在计算过程中将计算浪费降至最低,从而节省了计算资源。
3.2.1. 环注意力
对于Softmax注意力,环注意力算法提供了一种有效的方法来分区数据,从而实现无限的可扩展性。然而,现有的实施方法在数据打包格式下,FlashAttention虽然提供了varlen接口以适应数据打包格式,但没有相应的环注意力实现。TransformerEngine的实现中包含一个Context Parallel (CP) ProcessGroup来支持环注意力算法。
然而,这种方法在处理数据打包格式时存在计算资源浪费的风险。这是因为该算法将每个序列分成2×sizeCP段,并对每一段应用环注意力机制。因此,这种做法限制了每个序列的长度必须是 2 × 𝑠𝑖𝑧𝑒𝐶𝑃的整数倍。当样本分布未知且CP大小设置为较大值时,在某些情况下可能会导致大量填充,从而造成计算资源的浪费。
受不假设样本分布的启发,我们重新设计了算法,并将其命名为Varlen Ring Attention。该方法通过将环注意力算法直接应用于数据打包后的整个序列来避免传统方法中与填充相关的过度填充和后续计算浪费。具体实现包括在环注意力计算过程中区分每个序列对应的注意掩码偏移量。关键修改是将原始因果计算转换为varlen因果计算,并类似地将非因果计算转换为varlen非因果计算,如图11所示。
图 11|环注意力与变长环注意力对比。(a) 在环注意力中没有数据打包。 (b) 在变长环注意力中,将3个不同长度的样本进行打包处理。
3.2.2. 改进的线性注意力序列并行化
为了解决这一问题,LASP(线性注意力序列并行)算法利用通信组来促进长序列的扩展。如图 12(a) 所示,LASP 算法要求所有 CP 排序参与发送和接收操作以交换中间键值 (KV) 块结果。这种需求在 CP 排序之间引入了顺序依赖关系,从而迫使计算按串行方式执行。因此,这种顺序依赖关系显著阻碍了训练过程的整体效率,因为系统的固有并行性没有得到充分利用。
为了充分利用GPU设备的并行计算能力,我们提出了一种优化方法,通过细化计算和通信工作流程来消除计算过程中的依赖性。这种优化有效地将串行计算转换为并行化计算。增强的方法称为LASP+(图12(b)),其操作如下:
1.局部前缀和计算:每个计算节点,即CP排名,通过以下方式启动过程,独立计算其本地前缀和,表示为KVL。
2.全局同步通过AllGather:在本地计算之后,执行AllGather操作以全局同步所有节点的信息。这一步确保每个节点都能访问其他所有节点的必要数据。
3.前缀和计算:每个节点选择特定CP分区上的前缀和进行计算,这一选择基于其分配的计算顺序。
通过实施这些步骤,LASP + 方法有效地消除了计算节点之间的原始依赖性。这种消除依赖性有助于完全并行化的计算过程,从而显著提高了系统的整体效率和吞吐量。从串行到并行的转换不仅充分利用了GPU设备的全部潜力,而且确保训练过程可以更快、更可扩展地执行。
提出的修改,虽然在增加总通信量和临时内存使用方面会产生额外成本,但它们带来的实质性性能优势是毋庸置疑的。这些增强功能显著超过了相关的通信和内存消耗开销。
通过综合测试和验证,实证表明LASP+方法的计算速度可以达到原LASP算法的1/Npcn倍,其中Npcn表示并行计算节点的数量。此外,AllGather操作引入的开销最小,这与我们的预期一致,并突出了优化的有效性。
在LASP +框架的基础上,我们进一步引入对varlen功能的支持,以有效地管理数据打包的数据结构。这一增强特别有利于处理包含不同标记长度输入的批样本。该过程涉及以下步骤:1)填充到块大小:每个批次中的输入都被填充,以确保其长度是预定义块大小(设置为256)的倍数。此填充步骤对于使数据结构与内核的计算需求保持一致至关重要。2)顺序连接:填充后,将输入按顺序连接起来。这种连接方式便于使用单个内核在多个批次之间执行并行计算。通过以这种方式组织数据,我们可以高效地利用GPU的并行处理能力,从而优化计算性能。
将varlen功能与LASP +框架集成,确保系统能够处理各种输入长度而不会影响效率。这种方法不仅简化了计算工作流程,而且通过同时处理多个批处理来最大化利用资源。
图12 |LASP算法与LASP+算法的区别。(a) LASP算法1.初始化阶段:初始化 KVKV 为零,同时初始化对角衰减矩阵。2.数据分区与填充:将 QQ、KK、VV 矩阵沿序列维度划分为大小为 CPCP 的块(图中示例为4段),并根据块大小 BB 将每个块进一步划分为更小的块,同时对不能被 BB 整除的部分(如 Q7Q_7, K7K_7, V7V_7)进行填充。3.块内计算:并行执行每个 CPCP 排名的块内计算。4.块间计算与通信:从 CPCP 排名为0开始,计算当前 QiQ_i 与所有先前 KVKV 块和前缀和 KiViK_iV_i 的块间部分。不同的 CPCP 排名通过发送-接收操作进行数据通信。(b) LASP+算法基于图(a)的LASP算法,每个 CPCP 排名计算本地前缀和 KVLKV_L 并执行 AllGather 操作以同步数据,然后选择本地前缀和 KVLKV_L 来计算全局前缀和 KVGKV_G。其余的计算步骤与(a)相同。
3.3. 闪电注意力推理优化
闪电注意力机制的初步实现主要面向研究,尚不适合实际应用,尤其是推理。然而,在现实场景中,优化推理过程至关重要,因为部署训练好的模型的长期成本主要取决于其推理效率。为此,我们为闪电注意力实施了四种优化策略:批量内核融合、分离预填充和解码执行、多级填充和分批矩阵乘法扩展。
3.3.1 批量内核融合
我们融合了多个内存绑定的内核,并扩展支持以适应所有批量输入。在预填充阶段,我们在处理Q、K和V张量时执行了一个内核融合,包括序列维度中的填充、分区成块、调整内部布局以及计算衰减值。在解码阶段,我们对KV计算和前缀KV缓存更新进行了内核融合。这些内核融合减少了中间结果存储和内存访问操作,从而显著提高了内存访问效率,在解码阶段和短文本输入场景中将端到端延迟降低了10%。顺便说一句,与H800相比,这些优化可以在H20上带来非常明显的收益。
3.3.2. 分离预填充和解码执行
长序列计算的闪电注意力机制主要围绕块内和块间计算之间的差异。然而,这种方法对于推理任务并不是最优的,特别是在解码阶段,其中token长度始终等于1。
鉴于长度为1的token计算内核主要是内存绑定且仅需要有限数量的GPU流多处理器(SM),我们提出了一种策略,将长度为1的token处理与长度大于1的token处理分开。这通过使用两个不同的内核来实现。随后,我们利用两个单独的CUDA流并行调度这些内核,从而提高计算效率,并确保在涉及混合输入的情况下平衡GPU利用率。
例如,在批量大小为 20 的情况下,所有输入都包含前缀键值 (KV) 缓存,并且场景包括一个或两个具有 50 个token长度的输入,而其余输入具有 1 个token长度。这种方法可以显著降低延迟。具体而言,延迟大约相当于仅处理较长输入的延迟,从 100 毫秒减少到 50 毫秒。
3.3.3 多级填充
通过在Q、K、V张量上沿序列维度添加填充,可以将块内和块间组件有效分解为多个相同的矩阵乘法。这种分解特别有利,因为它与StrideBatchedMatmul接口无缝对接,从而有助于最大限度地发挥并行处理能力。
最初,填充的块大小设置为256,这与训练参数一致。然而,在实现前缀缓存技术后,观察到批次内的token长度通常低于256。这种差异导致了每个矩阵乘法操作中的冗余计算。为了应对这一低效并尽量减少不必要的计算,我们建议引入额外的分段选项,具体为32、64和128。
这种多层填充方法可以根据当前输入序列的长度动态选择计算规模,从而最小化填充开销。通过采用这种方法,可以优化计算资源的利用率,确保系统以更高的效率和更低的冗余运行。这一策略调整不仅节省了计算资源,而且有助于系统的整体性能提升。
3.3.4.StridedBatchedMatmul扩展
我们利用NVIDIA cuBLAS库中的优化函数cublasGemmStridedBatchedEx来管理StridedBatchedMatmul操作,从而确保在各种硬件架构上都具有高性能和通用性。同时,我们正在实施更广泛的内核融合策略,以显著提高Hopper GPU的计算效率。
由于我们的序列分区块大小配置为 256,相关的通用矩阵-矩阵乘法 (GEMM) 操作涉及维度为 256x256 的矩阵,可以利用整个工作组范围内的 WGMMA 指令进行计算。为了进一步提高内存访问效率,我们将张量存储器加速器 (TMA) 的异步操作集成在一起,并将某些预处理和后处理计算任务委托给 CUDA 核心以异步执行。
最终,我们的目标是动态调节管道阶段的数量以适应H20和H800 GPU架构的最佳性能。这种自适应控制机制将确保系统能够高效地处理不同的工作负载和硬件配置,从而最大限度地提高整体计算吞吐量和资源利用率。
通过实施上述优化,我们在H20 GPU上实现了超过75%的端到端推理任务模型Flops利用率。具体来说,在我们的MiniMax-Text-01和MiniMax-VL-01推理中,考虑到MoE结构内注意力操作与前馈网络(FFN)操作之间的延迟比,当序列长度为1,024,000个token时,softmax注意力占了95%的延迟。相比之下,在相同条件下,闪电注意力实现仅贡献不到12%的延迟。
我们的闪电注意力实现展示了在管理异构批输入方面的显著效率,这些输入具有不同的序列长度。这种效率在某些输入采用前缀缓存策略而其他不采用的场景中尤为明显。延迟的减少不仅提高了推理过程的整体速度,而且确保了系统能够以最小性能降级处理各种各样的输入类型。这种适应性突显了闪电注意力方法在实际应用中的的鲁棒性和多功能性
- 预训练
在本节中,我们概述了MiniMax-Text-01的预训练方法。首先,我们详细介绍了我们的预训练语料库的精心构建,特别强调数据质量、标准化格式和混合策略以最大化模型性能。其次,我们概述了我们的创新的数据实验框架,该框架能够快速且资源高效地评估数据效果,并同时最小化计算成本。最后,我们对模型的训练超参数进行了深入分析,并提出了一个分层训练方法,它使上下文长度扩展到400万个token。
4.1 数据
4.1.1. 预训练语料库
MiniMax-Text-01的预训练语料库包含了一个全面且精心挑选的数据集,包括学术文献、书籍、网络内容和编程代码。我们通过几个战略维度来提高语料库的质量:
-
数据质量提升。高质量的数据对于大型语言模型至关重要。我们实施了一个复杂的过滤管道,结合基于规则的清理和去重程序,并与既定实践相一致。为了在细粒度上评估文档的质量,我们使用了前一代模型作为奖励标签器(一个MoE模型,具有5B激活和60B总参数)。首先,我们评估多个质量维度,包括连贯性、简洁性、教育价值、有用性、知识丰富性和分类相关性。通过全面分析,我们确定这些指标之间存在显著的相关性,并最终专注于三个关键维度:知识深度、实用有用性和分类分布,同时保持其他指标作为次要验证指标。
-
数据格式优化。网站和书籍的内容,一旦被适当提取并清理后,可以自然地用作高质量的教材而无需进一步格式化。对于对话和问答数据而言,文本的顺序性固有地捕获了会话逻辑和问题答案关系。虽然人类受益于额外的格式化(例如Markdown),以提高可读性和理解力,但我们发现过度格式化实际上可能会减少数据多样性和质量,因为引入固定的模式限制了人类对话中存在的自然变化。最终,为了保持格式泛化能力和适应对齐的人类偏好,我们为对话和QA数据实现了一个嵌套文档格式,并使用通用模板,仔细平衡自然理解和结构一致性在各种交互模式中的一致性。
-
数据混合调查。我们开发了一种复杂的方法来调整数据分布,利用我们的三个主要质量指标。根据下一节中详细描述的实验范式,我们发现虽然高分内容在知识深度和有用性方面通常会在能力评估中取得更好的表现,但完全消除低分内容可能会对下游任务的表现产生不利影响。因此,我们实施了一个平衡采样策略,从基础语料库中的均匀分布开始,然后通过调整采样权重来优先考虑高质量的内容,同时保持不同类别的充分代表性。
4.1.2. 分词
在分词方面,我们采用字节级字节对编码(BPE),并融入了预分词的方法。我们有策略地对多语言内容进行上采样,以提高相应的压缩效率。最终得到的词汇表大小设定为20万个词元。
4.1.3 数据实验
为了系统地评估我们关于预训练数据质量、格式和组成的设计选择,我们进行了广泛的消融实验。这些实验涉及使用可比的token数量但具有不同数据特征来训练多个小型MoE模型。这种方法使我们能够隔离并测量单个数据属性的影响,同时保持计算效率。
4.1.3.1范式
制定。我们进行数据实验,系统地比较不同模型变体的性能。具体来说,我们将实验设计为统计假设检验,用于比较基准模型和使用不同数据配置训练的模型之间的评估指标分布。当测试新数据集D的有效性时,我们的备择假设是H1:μTD> μTbaseline,其中μ表示加权平均性能度量,T表示测试样本中评估值的分布。
评估。我们精心设计了我们的评估规范,以确保有意义的见解。我们查看广泛的多项选择基准,在查询制定中舍弃选择指数,并观察完成的可能性。我们观察样本对数正态归一化准确率log accnorm^2的分布,定义为
其中
是样本i中选择c的字节归一化概率。我们选择了字节归一化来排除分词器的影响,并减轻对较长选项的不利影响。我们进行了广泛的实验,以确保该指标在训练过程中保持稳定,同时保持了该指标的辨别力,这通过
的比例进行量化,其中
代表模型之间性能的明显差异,而
表示不同随机种子之间的标准偏差。
实验效率和设置。通过这样的统计设置,我们可以进行功率分析以决定最小测试样本量,同时保持MDE(最小可检测效应)与我们的训练方差相似的水平,并保证95%的信心水平和80%的决策能力。在设定信心方法后,我们对token数量和模型大小进行了简单的缩放实验,最终确定了使用40B数据、其中包含20B网页文档和20B假设数据的MoE激活为1B总参数为8B的训练步骤。
4.1.3.2重复的影响
引入重复数据已被实证证明会对模型的性能和泛化能力产生若干不利影响。因此,实施去重策略对于优化大型语言模型(LLM)的性能至关重要。
近期研究表明,对高质量文档进行重复训练可以提升下游任务的性能,其中某些高质量领域的训练重复次数可达 50 次,重复的衡量方法是基于 MinHash 相似性。然而,我们的实证分析表明,他们的实验范式在评估重复的影响方面并不充分,因为数据效率在整个训练过程中并不一致。
为了更好地与完整训练结果对齐,我们提出了一种新颖的重复感知实验框架。具体而言,我们首先对数据集进行全局去重以移除冗余条目。随后,根据最终训练计划的重复频率要求对文档进行下采样,同时遵循消融实验的预算限制。这与以往直接采用与最终训练阶段数据分布相同或相似的实验设置不同。我们的研究结果表明,低质量数据在训练超过两轮后性能大幅下降,而高质量数据可以有效训练至多四轮,与此前的观察结果类似。值得注意的是,采用我们提出的框架得出的解决方案在显著降低计算资源需求的同时,与完整训练的结果表现出更好的对齐性。
通过精确控制训练数据的重复程度和质量,我们实现了更高效、更有效的数据混合方案,从而最终提高了模型性能。
4.2 训练策略
初始预训练。我们使用Xavier初始化方法初始化所有模型参数,DeepNorm的缩放因子设置为α=(2N)0.25 和β=(8N)−0.25,其中N表示层数。我们采用AdamW优化器,其β1= 0.9,β2= 0.95,并将权重衰减设为0.1。训练序列长度为8192,批处理大小从最初的16M逐步增加到在69B个token时的32M,在790B个token时的64M,最后在4.7T个token时达到128M,并保持不变直到训练结束。该计划是基于训练损失与关键批量大小之间的相关性设计的。有人认为,在关键批量大小下进行训练可以实现训练时间和数据效率之间的近乎最佳平衡。随后,我们在较小模型的数据上拟合了损失与关键批量大小之间的幂律关系,如图13所示。当达到相应的损失时,批处理大小加倍。
图 13|训练损失和关键批量大小的幂律拟合,使用了参数量从50M到600M的模型数据。我们用虚线灰线标记了批量大小加倍的节点。
学习率计划开始于一个线性热身,持续500个迭代到峰值值为2×10−4,然后用恒定的学习率进行训练7.2Ttoken。在后期的培训中,我们注意到异常梯度范数值。这个问题归因于过高的学习率,并且我们将lr调整为1.3×10−4用于剩余的3.2Ttoken。在快速衰减阶段,我们训练了1Ttoken并指数地将学习率降低至3×10−5。此外,MoE辅助损失系数设置为0.01。
长上下文扩展。我们逐步增加模型的训练上下文长度到100万个token。由于我们的架构具有有效的长度外推能力,该模型成功地展示了其在“干草堆中找针”检索任务(NIAH)测试中的能力,即使只训练了最大为100万token的上下文,如图14所示。
图 14|针对 MiniMax-Text-01 的 400 万次普通“大海捞针”检索任务压力测试。当标记数量小于 100 万时,标记间隔为 32K;当标记数量大于 100 万时,标记间隔为 0.5M。
具体而言,我们采用三阶段训练程序系统地对不同长度范围内的长上下文数据进行上采样,同时保留关键域的分布特征以保持短上下文评估性能稳定。训练数据混合、RoPE 基频和训练长度的详细信息如表 6 所示。在每个阶段的最后 20% 的训练周期中,我们也混入了 10% 的高质量长上下文问答数据,其长度分布与长上下文预训练数据相似。为了缓解由分布变化导致的潜在不稳定性,我们在过渡阶段使用源特定权重的线性插值。这种方法有助于逐步且可控地将数据分布演化为所需的目标分布,从而确保训练的稳定性并保持收敛性。
此外,我们的发现表明NIAH不足以有效地监控整个训练过程中的模型性能。这主要是因为NIAH指标的表现会在早期就达到其峰值分数,特别是在最初的128K个训练步骤内。为了解决这一局限性,我们使用更具有挑战性的任务来评估模型的中间检查点,这些任务随着训练的进行而逐渐增加复杂度。值得注意的是,尽管这些任务的难度不断升级,但我们始终观察到模型性能指标的持续改善。这种稳定的上升轨迹清楚地展示了实施长期上下文连续预训练的关键重要性和必要性。更多细节在第5.7.2节中给出。
表6 |长上下文扩展。为了清晰起见,我们将数据分为以下几类:少于32Ktoken的数据被标记为“短”;从32K到128Ktoken的数据被标记为“中”,超过128Ktoken的数据被归类为“长”。
- 后训练
在本节中,我们提出了一种全面的后训练框架,旨在提升模型的整体性能、长上下文处理能力及实际应用能力。我们的方法从构建多样化、高质量的提示数据集开始,并辅以一个分层的奖励系统,对模型响应从多个维度进行评估,包括:正确性、真实性、有用性和无害性。训练过程分为监督微调(Supervised Fine-Tuning, SFT)、离线强化学习(Offline RL)和在线强化学习(Online RL)三个阶段。在这些阶段中,我们系统地将模型与预定义目标对齐。
通过详尽的数据挖掘技术和一个专门设计的无害性奖励模型,我们确保了模型的安全性。我们引入了一种新颖的多阶段训练方法,该方法在显著增强模型处理超长上下文能力的同时,保持了对短序列的最优性能。这一方法构建了一个稳健的系统,能够胜任复杂的现实场景处理任务。通过广泛的评估实验,包括学术基准和内部基准测试,我们验证了模型在所有任务上均达到了顶尖性能,并在超长上下文处理方面确立了新的标准。
5.1. 提示收集
我们的广泛提示词收集涵盖了来自多个来源的数百万条多样化且高质量的查询。我们开发了一套标注系统,根据任务类型、知识领域和难度等级对每条提示进行分类。收集过程中引入了复杂的过滤机制,以消除冗余提示,同时保持难度分布的最优状态。提示集涵盖多个领域,包括长上下文、编程、数学、逻辑推理、创意写作、函数调用、常识和安全相关场景。
5.2 奖励模型
我们的奖励模型框架通过四个关键维度评估响应,以确保与我们核心原则保持一致:
- 正确性
我们实施了严格的响应评估系统,以确保可以严格验证的任务结果。对于数学和推理任务,我们使用早期版本的 MiniMax-Text-01 基于答案一致性生成二元奖励信号。编程解决方案则在安全的沙盒环境中进行全面测试,性能指标通过测试用例的成功率评估得出。
- 真实性
我们采用验证流程来评估响应的事实准确性。该流程包括系统性地采样响应、分解和聚类陈述、众包验证,以及利用高级语言模型进行自动比较,从而生成真实性评分。
- 有用性
我们的评估框架通过确定性和概率性方法评估响应对用户指令的遵循情况。我们实现了自动化基于规则的约束验证系统,并辅以人工评估关键指标,包括连贯性、深度、上下文相关性以及风格适配性。最终的有用性评分通过加权评分系统整合多种评估信号得出。
- 无害性
基于宪法式人工智能的原则,我们制定了涵盖安全协议、内容适当性和法律合规性的评估标准。我们的评估系统利用经过精心校准的提示,并通过人工标注进行验证,早期版本的 MiniMax-Text-01 提供标准化的安全性评估。
5.3. 监督微调
我们的监督微调(SFT)数据集构建采用多阶段流程,利用通过迭代 SFT 和强化学习(RL)循环训练的领域专家模型完成。我们采用拒绝采样方法,由专家生成高质量响应,通过不同温度设置为每个提示采样多个变体,并根据奖励层级选择最优示例。响应选择过程进一步引入 n-gram 和语义相似性过滤器,以确保训练数据的多样性和质量达到最大化。
5.4. 强化学习
5.4.1 离线强化学习
我们引入了离线强化学习(RL)阶段,即直接偏好优化(DPO),以优化模型在多样化提示分布下的性能。DPO 因其简单性以及在长上下文场景下易于构建数据而被选用。我们特别关注在分布上与 SFT 阶段使用的提示保持一致的提示。
为了评估提示选择的影响,我们设计了两类提示的对比实验:SFT 训练过的提示和未经过 SFT 训练但具有相似性的提示。实证结果表明,SFT 训练提示与未训练提示在性能上的差异可以忽略不计。因此,我们在离线 RL 阶段采用了 SFT 训练提示。
实验流程包括为每条提示生成具有不同温度参数的响应,并通过第 5.2 节描述的奖励模型进行系统性评估。随后,我们从中识别出最佳和最差的响应,用于构建偏好对以进行 DPO 训练。
5.4.2 在线强化学习
在线学习相比离线学习方法展现出更高的样本效率和跨领域泛化能力。因此,我们采用在线强化学习(RL)来改进模型性能,特别是在数学推理任务中。我们的方法强调提示的多样性,并优先选择具有中等成功率的提示,以在策略更新过程中最大化信息增益。值得注意的是,在在线 RL 中我们使用了未经过 SFT 训练的提示,因为我们的实证观察表明,重复使用先前阶段的提示会导致模型饱和,表现为响应困惑度的降低。
我们提出了一种改进的分组相对策略优化(Group Relative Policy Optimization, GRPO)方法,并引入以下关键创新:
- 重要性采样权重剪辑
传统的 PPO/GRPO 实现采用单侧剪辑,在处理具有较大策略比率和负优势的标记时,有时会导致梯度不稳定性。为了解决这一问题,我们在损失函数中增加了额外的剪辑,丢弃这些情况。此举有效地调控了重要性采样的幅度并减轻了噪声传播的影响。
- KL 散度优化
由于类似的梯度不稳定性问题,我们通过对方差-偏差权衡的理论分析,重新定义了 KL 散度项,从而进一步稳定了梯度行为。公式为
其中 SG(·)表示停止梯度操作符。这种形式保持了策略的一致性同时降低了梯度方差。
- 平衡优势估计
我们还确保正负样本之间的奖励贡献公平,这在分布偏斜的情况下特别有效。这种方法通过调节不同示例组的绝对奖励大小来保持稳定的训练动态。
5.5. 安全对齐
我们的模型安全性对齐在监督微调(SFT)和强化学习(RL)阶段都得到了精心处理。为了在模型的无害性和有用性之间实现最佳平衡,我们采用了以下关键方法。
5.5.1 训练数据构建
我们构建了高质量的对齐训练数据,重点确保数据的多样性和准确性。这包括实施多种数据收集方法,旨在覆盖广泛的安全场景:
- 特定安全类别提示
我们利用既定的安全分类标准以及来自安全和领域专家的洞察,为特定安全类别生成定制提示。这确保模型能够接触到全面的安全相关场景。
- 真实用户数据收集
我们从各种网络文档中收集真实用户问题,将真实且多样的安全相关查询融入训练数据中。
- 提示增强
我们指导早期版本的 MiniMax-Text-01 基于收集的典型红队攻击提示生成额外的相关提示。此方法旨在扩展安全场景的多样性,并增强模型的安全机制的鲁棒性。
5.5.2.使用无害奖励模型生成响应
为了生成安全且适当的响应,我们采用了基于详细安全规则开发的无害性奖励模型。为防止模型产生不合理的拒绝,我们在安全规则中精心融入了有用性原则。这种融合在实现输出能力平衡方面发挥了关键作用,使模型能够在提供更安全响应的同时,不影响其对用户的实用性。
最终形成的安全对齐系统展现出强大的防滥用能力,同时在预期使用场景中保持了高性能表现。
5.6 长上下文适应的训练方法
我们提出了一种系统化的多阶段训练方法,旨在增强模型处理扩展上下文的能力,同时确保在传统短序列上的性能效率(如表 7 所示)。这一方法经过精心设计,不仅优化了长序列处理能力,还保持了短序列任务中的表现一致性。在整个后训练阶段,我们将 RoPE 的基础频率维持在 1000 万,以确保位置编码的一致性。
- 阶段 I:短上下文初始训练
第一阶段通过监督微调(SFT)限制序列长度为 8,192 个标记。这一基础阶段建立了模型处理标准长度查询和响应的能力,涵盖了大多数实际应用。在此阶段中,我们移除了长度超过 8,192 个标记的长上下文提示。
- 阶段 II:扩展上下文训练
第二阶段显著扩展了序列长度至 1,032,192 个标记。这一阶段在多样化的序列长度训练样本中引入了 50% 的长上下文提示,促进模型对扩展上下文处理的全面适配。序列长度的战略性扩展是实现强大长上下文能力的基础。
- 阶段 III:短上下文偏好优化
在此阶段,序列长度恢复为 8,192 个标记,并通过直接偏好优化(DPO)进行训练。此阶段的校准旨在确保模型在常规上下文规模上的最佳性能,同时保持先前获得的能力。
- 阶段 IV:长上下文偏好优化
第四阶段聚焦于通过 DPO 强化长上下文处理能力,序列长度为 1,032,192 个标记。本阶段采用与阶段 III 类似的训练协议,但全部使用长上下文数据,适应扩展的序列长度。
- 阶段 V:在线强化学习
最后阶段实施短上下文的在线强化学习,序列长度为 8,192 个标记。更多细节已在第 5.4.2 节中详细说明。
这一多阶段训练方法显著提升了模型在长序列和短序列场景中的适配能力,使其在多样化应用中展现出更高的性能和鲁棒性。
表 7|后训练对齐的训练配方。
5.7 学术基准测试
我们观察并报告了开源的短语和长句基准,这些基准突出了我们的模型在各个方面的功能。除了我们在第 5.8 节中将要讨论的面向用户的评估之外,我们还表明 MiniMax-Text-01 是一个领先的开源模型,在长上下文检索、理解、长上下文学习和基于知识的请求方面取得了最佳性能,同时在数学、推理和代码任务上表现良好,并且在真实的用户助理场景中表现出强大的实用性。
5.7.1. 核心基准
MMLU和MMLU-Pro是广泛采用的数据集,用于评估模型在各种领域的知识程度。我们进一步观察了SimpleQA,这是一个挑战模型知识边界的事实性基准,并且C-SimpleQA是一个根据中国文化改编的版本。为了观察推理能力,我们在GPQA中进行研究生级的知识推理,在DROP中进行阅读理解推理。我们测试我们的模型在数学问题解决方面的表现,包括从AMC-8到AIME级别的7个科目中的GSM8k和MATH。通过观察HumanEval和MBPP Plus数据集上的Pass@1率来监控我们的模型的编码能力。为了测试模型解释和执行详细、细微指令的能力,我们评估IFEval)基准。此外,我们还观察Arena-Hard-Auto,它反映了对人类偏好的一致性。
我们采用贪婪解码和零样本思维链策略来评估我们的指令调整模型。我们将MiniMax-Text-01与其他领先的开源LLM进行比较,在相同的设置下进行评估,如果没有报告的话。我们在表8中展示了MiniMax-Text-01的表现。如图所示,MiniMax-Text-01在大多数维度上表现出色。它超越了所有模型的C-SimpleQA,其知识边界更广泛,符合中国文化背景。MiniMax-Text-01还在MMLU、IFEval和Arena-Hard中取得了前三位的成绩,显示了它在给定约束内应用全面知识的能力,以很好地满足用户查询并符合人类偏好。同时,它实现了比GPT-4o、Claude-3.5-Sonnet和Llama-3.1-405B更好的MATH pass@1率,而且在 HumanEval 上的性能与指示 Qwen2.5-72B 相当,此外,在 GPQA Diamond 上达到了 54.4 分,超过了大多数开源指令调优的大语言模型和最新版本的 GPT-4o。
表 8|MiniMax-Text-01在核心学术基准测试中的表现。
5.7.2. 长度基准
正如第4.2节的长上下文扩展部分中先前讨论的那样,NIAH任务对于我们的模型来说过于简单,不足以观察模型的优化进展。因此,我们将评估转向更具挑战性的任务。我们当前的长上下文评估框架主要关注三个维度:
(1)长上下文检索
(2)长上下文理解以及
(3)长上下文学习。
5.7.2.1 长语境检索
这个维度评估模型的记忆能力,这是几乎所有长上下文任务的基础。除了传统的k-M NIAH,我们构建了一个更具挑战性的变体来评估我们的Long-Context Retrieval性能,即Multi-Round Needles-In-A-Haystack (MR-NIAH),作为在长多轮对话环境中进行检索任务的关键支持,揭示了构建终身伴侣AI助理的基本能力。类似于未开源的Multi-round co-reference resolution (MRCR) ,我们构造了MR-NIAH的干草堆作为历史对话,其中用户查询是合成但明确请求事件描述和创意写作。在最后一轮中,查询要求模型重复其中一个历史请求的回答。干草堆跨度从2K到1M个token(最多约2000次交互),并且每个针头请求分别注入在25%,50% 和75%的位置。
对话,分别。每个地面真实响应包含三个核心组件,并且我们查看调整后的召回率
。我们在附录B.2中展示了一个案例说明。
图15展示了MR-NIAH的比较结果。我们的模型(“MiniMax-Text-01”,红线)在英语和中文评估中都表现出强大的性能,覆盖了广泛的序列长度范围。与竞争基线(例如GPT、Claude和Gemini变体)相比,我们的模型在大输入长度下也显示出较少的性能下降,突显其对长上下文检索任务的鲁棒性。
图 15|MR-NIAH在英语和中文的评估。
5.7.2.2 长语境理解
这个维度衡量模型的长上下文理解能力,其中包括基于长上下文输入的逻辑推理技能。我们利用两个全面的长上下文问答数据集,Ruler和LongBench-V2,来评估这一方面。Ruler包括13个不同的任务,并特别引入了多跳跟踪和聚合任务,以评估模型的复杂推理能力。我们在一个序列长度为1Mtoken的情况下测试Ruler。LongBench-V2涵盖了各种难度级别的问答任务,涉及多种上下文类型,包括单文档和多文档、多轮对话、代码库以及长期结构化数据等。根据LongBench-V2,我们考虑两种测试方法:w/o CoT和w/ CoT,文本长度分为以下几类:短,范围从0到32K字;中等,跨度为32K至128K字;长,涵盖128K至2M字。
表 9|MiniMax-Text-01 在 Ruler 基准测试中的性能比较。
表 10|MiniMax - Text - 01在长文本基准测试LongBench v2上的性能对比。
如表9所示,我们的模型在处理Ruler的长上下文推理任务方面表现出显著的优势。虽然在64k输入级别上的性能与领先的模型(包括GPT-4o和Claude-3.5-Sonnet)保持竞争力,并且变化很小,但MiniMax-Text-01从128k开始就建立了明显的优势,在所有基准模型中取得了令人印象深刻的分数并超越了它们。这种优势在超长上下文场景(例如1M)中尤为突出,MiniMax-Text-01保持着其主导地位。此外,正如表103所显示的那样,MiniMax-Text-01在LongBench-V2的长上下文推理任务中表现出了出色的能力。该模型在w/ CoT设置下实现了所有评估系统中的最佳结果,同时也在w/o CoT的情况下显示出卓越的有效性。
总体而言,MiniMax-Text-01 在长上下文理解方面表现出色,尤其是在推理任务中,无论是有还是没有 CoT 推理。在需要复杂推理的场景下尤其出色。模型在处理长上下文理解任务时表现出的卓越鲁棒性和稳定性可归因于其混合架构,该架构结合了半 RoPE 和精心调整的预训练和对齐培训配方,从而增强了模型有效处理长序列的能力。
5.7.2.3 长期情境学习
这个维度评估了模型从上下文中学习的能力,这是终身学习研究的核心领域。我们用MTOB(机器翻译)来测试我们的长时上下文学习能力。
(从One Book、Tanzer等人,2024年)数据集。该任务要求模型在英语和Kalamang之间进行翻译,这是一种开放数据非常有限的语言,并且在训练语料库中也是如此,LLM预计仅通过语法书的一部分和375个翻译示例来学习这种语言,所有这些都在每个翻译查询的上下文中给出(附录B.1)。在半本书设置下,上下文长度约为81Ktoken,在总书中设置下,上下文长度约为133Ktoken。我们在表11中展示了我们的结果。
表 11|MiniMax-Text -01 在 MTOB 上的性能比较。
我们仔细检查了预训练数据,发现只有很少一部分数据包含Kalamang相关内容。因此,在无上下文场景下,我们的模型的eng→kalam(ChrF)得分最低,而其他与之相比的模型可能已经使用相关的Kalamang数据增强了其预训练或后训练数据。此外,就delta半书和全书指标而言,我们的模型在eng→kalam(ChrF)指标上超过了所有模型,并且在kalam→eng(BLEURT)指标上与其他模型具有可比性能。
在长上下文扩展过程中,正如第4.2节所述,在图16中显示的MTOB指标表明In-Context Learning能力逐渐增强。虽然我们已经探索了一些显著的工作,专门针对提高In-Context Learning能力,但我们认为这种能力只是长上下文模型推理能力的一个方面。因此,我们计划从更基本的角度深入研究长上下文数据的质量和规模,以进一步提升我们的模型的长上下文推理能力。
图 16|整个长上下文扩展训练过程中,eng → kalam(ChrF)的变化。
5.8 用户参与循环
在核心开源基准测试中取得优异成绩的同时,我们意识到学术评估缺乏对真实用户交互的理解。因此,我们也通过将基于实际案例的用户参与式评估纳入我们的海洛AI,并适应工具以提高实用性和性能来监测和改善用户体验。
5.8.1. 内部评估
我们维护一系列内部评估,包括:
(1)对通用助理能力、知识问答、创意写作、硬实力、指令遵循、编码、安全和长上下文的自动评估;
(2)专家人工评估。值得注意的是,由于我们的测试查询主要来自Hailuo AI用户交互,因此我们内部样本中的很大一部分是普通话,并且深深植根于中国文化背景中。
我们的结果表明,在学术基准上的表现和实际用户体验之间存在显著差异,领先的开源和商业模型在用作交互式助手时可能会表现不佳。我们在表12中显示了通过我们专门的努力,MiniMax-Text-01能够很好地处理这些情况。总的来说,在常见的助理场景中我们的模型优于其他模型,特别是与开源同行相比。
表 12|MiniMax-Text-01在MTOB上的性能比较。
这种优势最明显地体现在我们的创意写作和知识问答集合中,在这些场景中,它比其他模型更符合用户意图,并且能够对各种查询提供准确而详细的响应。在需要长上下文的生产力场景(如文档翻译、总结和分析)中,我们的模型表现出高度的专业性和可靠性。此外,我们优先考虑模型的安全性,因为它在我们建立的内部安全基准上取得了顶尖性能。
与此同时,我们敏捷地收集和更新了复杂的生产力场景,这些场景涉及我们的模型无法处理的多级指令遵循请求,并构建了内部评估中的Harder Capability和Instruction Following。虽然领先的LLMs在这些集合中往往表现不佳,但这些请求反映了当给定多层次指令时,我们的模型的局限性,这主要是由于特定指令类型的训练数据不足造成的。展望未来,我们将致力于大幅扩展我们的培训数据集,以高质量、有针对性的内容来弥补这些差距并提高模型的能力。
5.8.2. Hailuo AI中的搜索
在用户交互案例研究中,我们发现模型利用搜索工具的能力可以通过访问实时、广泛和精确的网络信息来弥补知识边界有限的问题。为了最大化模型从搜索中获得的好处并最小化额外性能下降,在确保对话体验无缝的同时,我们首先仔细预定义了大约30%到40%的用户查询范围,包括但不限于精度要求高、特定领域以及时间敏感的需求。同时,为确保流畅的对话体验,我们将系统定义为通过特殊标记直接调用工具,这避免了多步骤规划或可能破坏互动自然流程的思维链推理6的复杂性。我们在不同领域的搜索和非搜索决策之间创建SFT数据集,同时小心地控制与搜索决策无关的其他交互特征,如对话长度,以保持每个维度上的均匀数据分布,并防止过拟合。重要的是,我们使用每个样本相应的奖励模型来确保响应质量,否则将引入次优样本进入训练。
数据,可能影响模型的基本能力。搜索决策边界被校准以与模型的知识边界对齐,从搜索语料库中丢弃我们的模型已经掌握的样本,例如通用中文知识问答。经过人类评估专家仔细评估后,我们得出结论:我们的模型广泛使用搜索工具显著改善了用户体验,在域外Hailuo AI端到端评估上取得了从58%到71.5%的性能飞跃。由于我们不确定其他基于LLM的助手是否包含类似的搜索工具,因此我们避免进行不公平的表现比较。
- 视觉-语言模型
通过将图像编码器和图像适配器集成到我们的MiniMax-Text-01模型中,我们开发了MiniMax-VL-01,该模型扩展了模型在视觉理解任务上的能力。为了确保稳健的视觉理解,我们设计了一个专用的数据集,并实施了一种多阶段训练策略,在这种策略下,新引入的图像编码器和适配器首先进行大规模视觉预训练,然后对整个管道进行全面微调。
在接下来的部分中,我们首先对用于训练我们的图像编码器和视觉语言模型的数据集进行了全面描述。随后,我们提供了有关模型架构的深入概述,并介绍了我们的四阶段培训方案。最后,我们通过展示基准结果来结束这一部分。
6.1 多模态数据
6.1.1. 标题数据
为了预训练视觉编码器,我们通过聚合和过滤来自互联网的数据集来创建一个庞大的图像-标题数据集。我们的视觉转换器(ViT)使用了6.94亿个独特的图像-标题对进行训练。为提高数据质量,我们在这些对中获取了1.8亿张图片的精炼标题。在训练过程中,我们采用了一种增强策略,以相等的概率(p = 0.5)随机采样原始和精炼标题。
6.1.2 描述数据
在现有的视觉语言模型中,描述性图像对模型训练的效用已经得到了很好的记录。为了进一步探索这一途径,我们收集了一个由1亿张图片组成的数据集,这些图片来自公共资源,如Common Crawl。这个数据集中每一张图片都配有一段精细的描述,该描述最初是由一个标题生成器合成的,并且随后通过人类进行精炼。平均而言,这些描述包含每个图像大约300个文本token。描述数据是模态对齐和增强理解的强大资源,在进一步培训中发挥着重要作用。
6.1.3 指令数据
为了训练MiniMax-VL-01,我们通过合成涉及视觉输入的广泛范围的问题答案(QA)对来构建一个全面和多样化的基于指令的数据集。这些QA对精心设计以涵盖各种与图像相关任务,如文本提取、对象定位和几何问题解决。数据集生成过程优先考虑多样性和现实性,确保指令捕捉不同程度的复杂性和语言风格。在训练过程中,我们应用一种增强策略,通过随机采样不同类型的QA提示并保持平衡的概率,从而使模型能够在多样化的教学形式和互动模式。
6.1.4 数据分布
为了展示我们的VLM数据的多样性,我们从指令数据中均匀采样了100万个图像-指令对,并使用另一个VLM为每个对分配一个简洁的标签(例如对象定位),以表示每个对所需的主要能力。该分析产生了大约50,000个唯一的标签,前2,817个标签出现了超过10次。这些突出标签的分布如图17所示,在其中我们将这些顶级标签进一步分为14大类。
6.2 架构
6.2.1 总体架构
我们的MiniMax-VL-01架构遵循“ViT-MLP-LLM”的范式,该范式在众多多模态大语言模型(Multimodal Large Language Models,简称 MLLMs)中被广泛采用。该架构由三个主要组件组成:一个具有3.03亿参数的视觉编码器Vision Transformer (ViT),一个用于图像适配的随机初始化两层MLP投影器,以及作为基础大语言模型(Large Language Model,简称 LLM)的MiniMax-Text-01 模型。
图 17|采样指令数据的顶部标签可视化。每组聚类标签的类别和百分比显示在内层,出于清晰性考虑,每组只显示前10个标签。
我们通过根据预定义的网格配置列表调整输入图像大小来实现动态分辨率策略,范围从 336×336 到 2016×2016,同时保持标准缩略图在 336×336 的分辨率。随后将调整后的图像分成不重叠的块,每个块为 336×336。图像块和缩略图都独立编码,并将其编码特征连接起来构建全面的图像特征表示。
与传统方法依赖于池化或其他下采样技术来压缩特征表示不同,我们的模型利用其强大的处理长序列的能力,在训练过程中直接使用原始高维特征。这种策略减轻了潜在的信息损失,并显著提高了模型对多尺度输入的适应性。此外,通过将图像块和缩略图投影到统一的特征空间中,我们的方法在处理各种复杂视觉输入时,显著增强了模型的鲁棒性和表达能力。
6.2.2 视觉编码器
我们使用一个轻量级的ViT-L/14作为我们的视觉编码器的基础结构,并从头开始对其进行训练。按照标准流程,输入图像张量最初通过卷积层进行处理以提取离散块,然后对这些绝对值进行操作。
位置嵌入随后被附加。然后,将得到的张量通过一系列多头残差注意块。这种架构在捕捉复杂的视觉细节和图像中的复杂相互关系方面特别有效。
我们利用对比学习来增强对应图像字幕对之间的匹配,同时减少非对应对之间的匹配。具体来说,我们遵循CoCa 中介绍的方法,该方法通过附加解码器和图像文本交叉注意力机制增强了图像文本对比学习。网络是使用对比损失和交叉熵损失的组合联合优化的。
我们的ViT-L/14模型最初在224×224分辨率下对370亿张图像-标题对进行预训练,然后在336×336分辨率下对12亿对图像-标题对进行微调。对于这两种分辨率,标题被截断为76个token。我们的ViT-L/14编码器在ImageNet-1K数据集上以336×336分辨率实现了零样本分类准确率80.55%。
6.3. 训练策略
我们采用四阶段训练策略,使模型在保持语言理解能力的同时逐步发展出全面的多模态理解能力。此外,在这些阶段中,该模型的问题回答和指令遵循能力以及与人类偏好的一致性也得到了系统性的改进。
- 第一阶段:模态对齐
在这一阶段,我们的主要目标是通过使模型能够准确地为给定图像生成合适的标题来实现视觉和文本标记之间的对齐。为此,我们更新了图像适配器和视觉编码器的权重以优化它们在此多模态任务中的性能。在这个阶段中,我们利用从我们的图像描述数据集中采样的总共800亿个token。经验上,我们发现增加图像分辨率不会提高下游任务的准确性。因此,所有图像都以固定的336×336分辨率进行处理,以减少计算成本。
- 第二阶段:视觉理解增强
该阶段可以看作是一个标准的指令调优阶段,所有模型参数均开放更新,主要目标是使模型输出与人类指令一致,并提升其执行多样视觉理解任务的能力。为此,我们使用从我们的指令数据集中采样的4200亿个跨模态token进行训练,同时以20:1的比例结合MiniMax-Text-01后训练数据,确保在获得新的跨模态能力的同时保持语言建模能力。
- 第三阶段:提升用户体验
本阶段旨在进一步增强模型在真实场景中的能力,以及处理具有挑战性的用户输入的能力。我们使用人们通常会交互的应用程序中获取的图像来整理复杂的多模态数据。对话被精心标记以模拟真实的用户输入,并确保提供准确、有用和多样化的响应。这一阶段的数据构建由一个独立的人类标注测试集指导,该测试集不仅优先考虑准确性,还从用户体验的角度考虑整体质量。最终得到的数据集包含448亿个跨模态token,并进行了一个周期的训练。
- 第四阶段:偏好增强
在最后的阶段,我们利用直接偏好优化(DPO)进一步提升模型性能和用户体验。通过以下过程构建一个由4万个图像-文本对组成的训练数据集:
提示选择。提示是从指令数据和真实用户交互数据中精选的。这些提示被选出来,以涵盖广泛的一般场景,并且特别针对在第三阶段之后识别出的持续性问题,例如复杂OCR场景中偶尔出现重复输出。
响应生成。我们采用多种策略,包括:通过改变采样温度参数来产生多个候选响应;在特定场景中通过图像减弱创建响应变体;使用MiniMax-Text-01故意将幻觉或错误引入高质量的响应,在特定场景中生成对比样本。
奖励分配。本阶段利用大型语言模型,特别是MiniMax-Text-01作为评估者,设计多维度的评价标准,对提示、真实答案和生成回答之间的关系进行系统全面的评估。
配对构建。根据评估结果,我们选择得分最高的响应作为正样本,得分最低的响应作为负样本,并丢弃分数差异不显著的对子。
除了包含图像-文本对,我们还包括大量纯文本对,如第5.4.1节所述。值得注意的是,在将直接偏好优化(DPO)应用于高度有能力的基础模型时,存在过度拟合的趋势。为解决这个问题,我们采用了一种早期停止策略,即在完成一个完整的周期之前终止训练过程。这种方法旨在保持模型的泛化能力。
通过遵循这种多阶段训练策略,我们确保我们的模型不仅在理解和生成高质量文本方面表现出色,而且符合人类价值观和安全标准。这种全面的培训方法使我们在模型性能与道德考虑之间取得平衡,从而产生一个既有效又负责任的模型。
6.4. 基准测试
为了评估我们的视觉语言模型的性能,我们维护了一组多样化的基准测试,包括MMMU,MMMU-Pro,ChartQA,DocVQA,OCR Bench,AI2D,Math Vista,Olympiad Bench,MMLong Bench - Doc和一个内部基准。这些基准有助于评估模型在各个领域的能力,包括知识、视觉推理、数学、科学、长上下文处理和用户体验。我们在附录D中详细介绍了每个基准的评估配置。如表13所示,MiniMax-VL-01 在各种视觉语言任务上都取得了竞争力的表现,展示了以下关键优势和局限性:
- 常见下游任务
在标准的视觉语言下游任务中,MiniMax-VL-01的表现与GPT-4o相当,特别是在视觉问答方面表现出色。这种出色表现归功于其广泛的多阶段训练过程,使模型能够有效地理解和推理视觉和文本输入之间的关系。然而,MiniMax-VL-01仍然难以应对奥林匹克数学竞赛评估的高级数学推理任务。我们评估了MiniMax-VL-01对长上下文的理解能力和重新 -
- 长上下文处理
结果显示我们的模型在大多数同行中表现更优,除了GPT-4o-11-20。尽管MiniMax-VL-01的整体性能很强,但在单页(acc:47.3%)和跨页面(acc:28.4%)子集上仍存在明显差距。
表 13|MiniMax-VL-01在学术和内部基准测试上的表现。
- 综合基准
在最近推出的MEGA-Bench上,一个现实且全面的评估套件中,MiniMax-VL-01显示出了竞争力的整体能力,超越了现有的开源视觉LLM。虽然它在知识和编码等多样化的子任务方面表现出色,但该模型在更复杂的任务,如规划和度量评估等方面面临挑战。
- 内部用户体验基准
虽然学术基准通常侧重于解决问题,但它们往往无法捕捉现实世界中用户与模型交互的细微差别。为了弥合这一差距,我们开发了一个包含90个不同图像相关任务的内部基准,每个任务都设计有定制和具有挑战性的指令。基准中的图像和指令严格去重,以确保在任何阶段都不与训练集重叠。执行相关性手动验证,并为每个样本添加详细的检查清单,以确保精确评估。最终测试集由524个精心注释的样例组成,包括中文和英文,但主要使用中文。我们在附录C中展示了部分样例。在与顶尖视觉语言模型的竞争中,我们的模型优于所有开源模型,并且性能接近GPT-4o-11-20,仅差一点点。
- 结论与展望
在这份报告中,我们介绍了MiniMax-Text-01和MiniMax-VL-01这两个全新的模型。这些模型从头开始完全开发,并在标准基准测试中表现出顶级性能,在长上下文处理方面尤其出色,能够处理长达400万个token的上下文窗口。我们的研究结果挑战了当前最先进的假设。
语言模型必须建立在传统的注意力机制之上。通过战略性地将线性注意力与优化的硬件利用率相结合,并精心设计训练配方,我们成功地扩大了上下文窗口的数量级。这一突破不仅提高了LLMs的效率和可扩展性,而且为未来支持更长上下文窗口的模型铺平了道路,并促进了更复杂的AI代理的发展。为了促进该领域的合作和发展,我们将我们的模型公开发布在https://github.com/MiniMax-AI上。对于一般使用和评估,我们提供了一个具有在线搜索功能的聊天机器人(https://www.hailuo.ai/)以及在线API(https://intl.minimaxi.com)。我们致力于保持这个系列开源,并将在开发改进模型时发布更新。
MiniMax-Text-01 和 MiniMax-VL-01 在通用语言和视觉语言任务上表现出色,但我们也承认一些限制需要进一步探索:
1.上下文评估:当前长语境检索任务的评估数据集主要针对人工或简化场景设计,对文档分析等实际应用中的长文本推理能力评估仍有限。我们计划在更现实的环境中增强长语境检索,并扩展长语境推理在更多任务上的评估。
2.模型架构:目前的模型保留了1/8组件和香草softmax注意力。我们正在研究更高效的架构,可以完全消除softmax注意力,从而在不增加计算开销的情况下实现无限上下文窗口。
3.复杂编程任务:模型在高级编程任务上的表现有待提高,因为目前我们预训练阶段的编码数据集仍然有限。我们在下一版本中会不断改进训练数据的选择和细化持续培训程序以解决这些局限性。
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!
在这个版本当中:
第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言
您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
一、LLM大模型经典书籍
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
二、640套LLM大模型报告合集
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
三、LLM大模型系列视频教程
四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)
五、AI产品经理大模型教程
LLM大模型学习路线 ↓
阶段1:AI大模型时代的基础理解
-
目标:了解AI大模型的基本概念、发展历程和核心原理。
-
内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
-
目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
-
内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望
阶段3:AI大模型应用架构实践
-
目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
-
内容:
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
-
目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
-
内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
这份 LLM大模型资料
包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓