Yuan 2.0-M32 是一个基于 Yuan 2.0 架构的双语混合专家 (MoE) 语言模型，旨在以更少的参数和计算量实现更高的准确率_源2.0大模型使用了传统attention,一个混合专家(mixture of experts, -CSDN博客

本文链接：https://blog.csdn.net/weixin_32759777/article/details/139418098

主要创新点：

注意力路由器 (Attention Router): 提出了一种新的路由器网络，考虑了专家之间的相关性，从而提高了模型的准确率。
高效计算：使用 MoE 架构，40B 总参数中仅有 3.7B 激活参数，训练计算消耗仅为同规模密集模型的 9.25%，推理成本与 3.7B 参数的密集模型相当。
性能优异：在代码生成、数学解题、科学知识和推理等多个领域展现出与 Llama3-70B 等大型模型相当甚至更优的性能。
模型结构：
基于 Yuan 2.0 架构，将每一层的密集前馈网络替换为 MoE 组件。
每个 MoE 层包含一组独立的专家（FFN），注意力路由器负责将输入 token 分配给相关的专家。
注意力路由器通过计算专家之间的相关性，选择最相关的专家参与计算，从而提高模型准确率。
训练与评估：
使用 2000B 双语数据集从头开始训练。
在代码生成、数学解题、科学知识和推理等多个基准测试中取得了优异的成绩。
与其他 MoE 模型和密集模型相比，Yuan 2.0-M32 在准确率、参数效率和计算效率方面都展现出显著优势。
开源与贡献：
Yuan 2.0-M32 的模型和源代码已在 GitHub 上开源，为 LLM 和 AI 产业发展做出贡献。
总而言之，Yuan 2.0-M32 是一个高效且性能优异的 MoE 语言模型，为大型语言模型的研究和应用提供了新的思路。