主要创新点:
- 注意力路由器 (Attention Router): 提出了一种新的路由器网络,考虑了专家之间的相关性,从而提高了模型的准确率。
- 高效计算: 使用 MoE 架构,40B 总参数中仅有 3.7B 激活参数,训练计算消耗仅为同规模密集模型的 9.25%,推理成本与 3.7B 参数的密集模型相当。
- 性能优异: 在代码生成、数学解题、科学知识和推理等多个领域展现出与 Llama3-70B 等大型模型相当甚至更优的性能。
模型结构: - 基于 Yuan 2.0 架构,将每一层的密集前馈网络替换为 MoE 组件。
- 每个 MoE 层包含一组独立的专家(FFN),注意力路由器负责将输入 token 分配给相关的专家。
- 注意力路由器通过计算专家之间的相关性,选择最相关的专家参与计算,从而提高模型准确率。
训练与评估: - 使用 2000B 双语数据集从头开始训练。
- 在代码生成、数学解题、科学知识和推理等多个基准测试中取得了优异的成绩。
- 与其他 MoE 模型和密集模型相比,Yuan 2.0-M32 在准确率、参数效率和计算效率方面都展现出显著优势。
开源与贡献: - Yuan 2.0-M32 的模型和源代码已在 GitHub 上开源,为 LLM 和 AI 产业发展做出贡献。
总而言之,Yuan 2.0-M32 是一个高效且性能优异的 MoE 语言模型,为大型语言模型的研究和应用提供了新的思路。