国产MoE模型发布开源免费,40B参数媲美Llama3-70B

引言

如今,想要得到一个效果很好的模型,卡脖子的不仅仅是算力问题,就连能源也是一个巨大的问题。对于中国企业来说,面对美国的算力封锁,中国如何才能打破这算力和能源的双重困境呢?就连号称钢铁侠的马斯克都表示,算力和能源消耗将成为未来模型训练面临大的最大问题。无疑这是阻碍AI进一步发展的卡脖子问题,目前全世界的AI公司和科研工作者,都在想办法克服这个问题。

1、寻找和研究新能源,比如研究核聚变,用核聚变为模型训练提供电能
2、优化硬件的架构,或者提高硬件处理数据和并行的能力
3、从模型和算法出发,优化模型算法或者寻找新的模型架构

就在最近,浪潮信息发布了一个开源的MoE模型,源2.0-M32。

在这里插入图片描述
源2.0-M32模型就通过优化模型算法,力求在性能和算力之间找到一种方法,使得模型使用更少的算力,能够拥有更高的性能。该模型一经发布,就在开源领域引起了广泛关注,因为他不仅性能全面对标行业领先的Llama3模型,而且在单个token推理上的算力消耗仅需5.28%,显著降低了计算资源需求,为商业使用提供了高效且免费的选项。模型大概40B的参数,拥有32个专家,2个激活专家,激活参数3.7B,可支持序列长度16k,模型大概只有Llama3-70B的一半,在训练和微调速度都比Llama3要快,但在效果上却能够媲美Llama3,并且在有些能力上甚至远超Llama3-70B。

在这里插入图片描述
特点优势
那么与其他模型相比,源2.0-M32具备哪些特点呢?
性能卓越:在多个评测数据集上,源2.0-M32展示了与Llama3相媲美的精度,甚至在数学竞赛(MATH)和科学推理(ARC-C)领域超越了Llama3。

在这里插入图片描述

低算力消耗:训练阶段,源2.0-M32仅需同等参数规模稠密模型9.25%的计算量;推理时,单token消耗7.4GFLOPS,对比Llama3的140GFLOPS,仅为后者1/19,即5.28%的算力效率。
微调优经济性:微调阶段,模型所需资源同样节省,1万条数据微调,Llama3需0.05PD而源2.0-M32只需0.026PD,仅为前者的5.2%。

在这里插入图片描述

样本学习力强大,少样本学习能力意味着即便无微调,也能快速构建应用。如代码生成任务,少量样本引导下,源2.0-M32在HumanEval上的精度由74.4提至78.1,增长4.97%。
部署灵活 支持云端部署、浪潮EPAI企业平台及本地工具YuanChat,且模型激活参数量3.7B,适配较低,笔记本即可运行。

在这里插入图片描述

算法优化

源2.0-M32提出了一种基于注意力机制的门控网络(Attention Router)新型的算法结构,针对MoE模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家协同处理数据水平大幅提升。源2.0-M32采用源2.0-2B为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。

在这里插入图片描述

数据优化

源2.0-M32基于超过2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。代码数据占比达47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。结合高效的数据清洗流程,满足大模型训练“丰富性、全面性、高质量”的数据集需求。基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。

算力优化

算力方面,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MoE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。

总结

浪潮信息的源2.0-M32大模型凭借其在算法、算力和数据层面的全面创新,以及独特的模型设计,不仅在性能上与顶级模型保持一致,更在算力消耗上实现显著节省,为企业提供了一个实用且高效的大模型解决方案。

论文:https://arxiv.org/pdf/2405.17976
模型:https://github.com/IEIT-Yuan/Yuan2.0-M32

扫描二维码进人工智能技术交流群,如果二维码已过期请添加助手微信(id:ainlpws)

在这里插入图片描述

### DeepSeek系列模型概述 #### IDeepSeek-MoE 架构与特性 IDeepSeek-MoE 是一种基于 Mixture of Experts (MoE) 结构设计的大规模稀疏激活神经网络架构[^1]。该模型通过引入多个专家模块来处理不同的输入特征子集,从而实现更高效的参数利用和更高的计算效率。这种结构允许模型在训练过程中动态选择最合适的专家组合来进行预测。 #### DeepSeek-VL 架构与特性 DeepSeek-VL 被专门开发用于视觉-语言跨模态理解任务。此模型融合了先进的图像编码器和文本编码器,在多层双向 Transformer 编码的基础上进一步增强了对于复杂场景的理解能力[^2]。它能够有效地捕捉图片中的物体及其相互关系,并将其映射到相应的语义空间中;同时也可以反向操作——即给定一段描述性的文字,可以生成对应的可视化表示形式。 #### DeepSeek-R1 架构与特性 作为一款专注于检索优化的任务型对话系统核心组件之一,DeepSeek-R1 主要采用了密集索引技术以及双塔式对比学习框架构建而成[^3]。其工作原理是在预训练阶段分别对查询端(Query Side)和文档库端(Document Corpus Side)的数据样本进行独立表征提取,之后再经由特定机制完成两者间相似度匹配运算过程。 ```python import torch.nn as nn class DeepSeekR1(nn.Module): def __init__(self, query_encoder, doc_encoder): super().__init__() self.query_encoder = query_encoder self.doc_encoder = doc_encoder def forward(self, queries, documents): q_embeddings = self.query_encoder(queries) d_embeddings = self.doc_encoder(documents) scores = torch.matmul(q_embeddings, d_embeddings.t()) return scores ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值