源2.0 M32大模型 github项目

强化学习曾小健

已于 2024-07-11 10:25:56 修改

阅读量918

点赞数 7

分类专栏： # 浪潮源大模型Yuan-LLM 文章标签：人工智能 transformer 深度学习神经网络语言模型

于 2024-07-10 11:41:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_37574187/article/details/140319764

版权

源2.0 M32大模型

👾 ModelScope • 🤗 Hugging Face • 💬 WeChat• 📎 源2.0 M32论文

简体中文 | English

0. Latest News 🎉🎉

[2024-06-18] 发布 INT8量化版本模型 (Yuan2.0-M32-HF-INT8)，高性能推理、精度无损 🎗️🎗️🎗️
[2024-06-18] 发布 INT4量化版本模型 (Yuan2.0-M32-HF-INT4) 🎗️🎗️
[2024-05-28] 发布源2.0 M32大模型

1. Introduction

浪潮信息 “源2.0 M32”大模型（简称，Yuan2.0-M32） 采用稀疏混合专家架构（MoE），以Yuan2.0-2B模型作为基底模型，通过创新的门控网络（Attention Router）实现32个专家间（Experts*32）的协同工作与任务调度，在显著降低模型推理算力需求的情况下，带来了更强的模型精度表现与推理性能；源2.0-M32在多个业界主流的评测进行了代码生成、数学问题求解、科学问答与综合知识能力等方面的能力测评。结果显示，源2.0-M32在多项任务评测中，展示出了较为先进的能力表现，MATH（数学求解）、ARC-C（科学问答）测试精度超过LLaMA3-700亿模型。Yuan2.0-M32大模型 基本信息如下：

模型参数量： 40B
专家数量： 32
激活专家数： 2
激活参数量： 3.7B
训练数据量： 2000B tokens
支持序列长度： 16K

同时，我们发布了Yuan2.0-M32模型的技术报告，可以通过论文查看更详细的技术细节与测评结果。

Fig.1: Yuan 2.0-M32 架构图

2. Model Downl

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

强化学习曾小健 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。