abab 模型进展｜MiniMax 发布万亿 MoE 模型abab 6.5_minimax正式推出了abab 6.5系列模型-CSDN博客

本文链接：https://blog.csdn.net/GZZN2019/article/details/137871608

MiniMax推出的新模型abab6.5在MoE架构上取得重大突破，其万亿参数版本在核心能力测试中接近GPT-4水平，展示了强大的知识和推理能力。abab6.5s作为高效版本，也加入了产品线，支持大规模文本处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2024 年 4 月 17 日，MiniMax 正式推出abab 6.5 系列模型。万亿 MoE 模型 abab 6.5，在各类核心能力测试中，abab 6.5 开始接近 GPT-4, Claude 3 Opus, Gemini 1.5 Pro 等世界上最领先的大语言模型。

在 MoE 还没有成为行业共识时，MiniMax 花了 80% 以上的精力下注 MoE，并于今年 1 月，发布了国内首个基于 MoE 架构的 abab 6。在过去的三个月里，我们进一步地挖掘了 MoE 架构的潜力，研发出了更强大的 abab 6.5。

这个过程中，我们找到了越来越多加速实现 Scaling Laws 的途径，包括改进模型架构，重构数据 pipeline，训练算法及并行训练策略优化等。今天发布的 abab 6.5 和 abab 6.5s 是我们加速 Scaling Laws 过程的阶段性成果。

abab 6.5 系列包含两个模型：abab 6.5 和 abab 6.5s。abab 6.5 包含万亿参数，支持 200k tokens 的上下文长度；abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据，但是更高效，支持 200k tokens 的上下文长度，可以 1 秒内处理近 3 万字的文本。