国产MoE模型发布开源免费，40B参数媲美Llama3-70B

m0_37914799

已于 2024-09-04 10:52:40 修改

阅读量734

点赞数 16

文章标签：语言模型人工智能

于 2024-05-31 09:50:49 首次发布

本文链接：https://blog.csdn.net/m0_37914799/article/details/139339881

版权

引言

如今，想要得到一个效果很好的模型，卡脖子的不仅仅是算力问题，就连能源也是一个巨大的问题。对于中国企业来说，面对美国的算力封锁，中国如何才能打破这算力和能源的双重困境呢？就连号称钢铁侠的马斯克都表示，算力和能源消耗将成为未来模型训练面临大的最大问题。无疑这是阻碍AI进一步发展的卡脖子问题，目前全世界的AI公司和科研工作者，都在想办法克服这个问题。

1、寻找和研究新能源，比如研究核聚变，用核聚变为模型训练提供电能
2、优化硬件的架构，或者提高硬件处理数据和并行的能力
3、从模型和算法出发，优化模型算法或者寻找新的模型架构

就在最近，浪潮信息发布了一个开源的MoE模型，源2.0-M32。

在这里插入图片描述
源2.0-M32模型就通过优化模型算法，力求在性能和算力之间找到一种方法，使得模型使用更少的算力，能够拥有更高的性能。该模型一经发布，就在开源领域引起了广泛关注，因为他不仅性能全面对标行业领先的Llama3模型，而且在单个token推理上的算力消耗仅需5.28%，显著降低了计算资源需求，为商业使用提供了高效且免费的选项。模型大概40B的参数，拥有32个专家，2个激活专家，激活参数3.7B，可支持序列长度16k，模型大概只有Llama3-70B的一半，在训练和微调速度都比Llama3要快，但在效果上却能够媲美Llama3，并且在有些能力上甚至远超Llama3-70B。

在这里插入图片描述
特点优势
那么与其他模型相比，源2.0-M32具备哪些特点呢？
性能卓越：在多个评测数据集上，源2.0-M32展示了与Llama3相媲美的精度，甚至在数学竞赛(MATH)和科学推理(ARC-C)领域超越了Llama3。

在这里插入图片描述

低算力消耗：训练阶段，源2.0-M32仅需同等参数规模稠密模型9.25%的计算量；推理时，单token消耗7.4GFLOPS，对比Llama3的140GFLOPS，仅为后者1/19，即5.28%的算力效率。
微调优经济性：微调阶段，模型所需资源同样节省，1万条数据微调，Llama3需0.05PD而源2.0-M32只需0.026PD，仅为前者的5.2%。

在这里插入图片描述

样本学习力强大，少样本学习能力意味着即便无微调，也能快速构建应用。如代码生成任务，少量样本引导下，源2.0-M32在HumanEval上的精度由74.4提至78.1，增长4.97%。
部署灵活支持云端部署、浪潮EPAI企业平台及本地工具YuanChat，且模型激活参数量3.7B，适配较低，笔记本即可运行。

在这里插入图片描述

算法优化

源2.0-M32提出了一种基于注意力机制的门控网络（Attention Router）新型的算法结构，针对MoE模型核心的专家调度策略，这种新的算法结构关注专家模型之间的协同性度量，有效解决传统门控网络下，选择两个或多个专家参与计算时关联性缺失的问题，使得专家协同处理数据水平大幅提升。源2.0-M32采用源2.0-2B为基础模型设计，沿用并融合局部过滤增强的注意力机制（LFA, Localized Filtering-based Attention），通过先学习相邻词之间的关联性，然后再计算全局关联性的方法，能够更好地学习到自然语言的局部和全局的语言特征，对于自然语言的关联语义理解更准确，进而提升了模型精度。

在这里插入图片描述

数据优化

源2.0-M32基于超过2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。代码数据占比达47.5%，从6类最流行的代码扩充至619类，并通过对代码中英文注释的翻译，将中文代码数据量增大至1800亿token。结合高效的数据清洗流程，满足大模型训练“丰富性、全面性、高质量”的数据集需求。基于这些数据的整合和扩展，源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。