源2.0 M32大模型 github项目

源2.0 M32大模型

👾 ModelScope • 🤗 Hugging Face • 💬 WeChat• 📎 源2.0 M32论文

​编辑​编辑

简体中文 | English


0. Latest News 🎉🎉

  • [2024-06-18] 发布 INT8量化版本模型 (Yuan2.0-M32-HF-INT8),高性能推理、精度无损 🎗️🎗️🎗️
  • [2024-06-18] 发布 INT4量化版本模型 (Yuan2.0-M32-HF-INT4) 🎗️🎗️
  • [2024-05-28] 发布源2.0 M32大模型

1. Introduction

浪潮信息 “源2.0 M32”大模型(简称,Yuan2.0-M32) 采用稀疏混合专家架构(MoE),以Yuan2.0-2B模型作为基底模型,通过创新的门控网络(Attention Router)实现32个专家间(Experts*32)的协同工作与任务调度,在显著降低模型推理算力需求的情况下,带来了更强的模型精度表现与推理性能;源2.0-M32在多个业界主流的评测进行了代码生成、数学问题求解、科学问答与综合知识能力等方面的能力测评。结果显示,源2.0-M32在多项任务评测中,展示出了较为先进的能力表现,MATH(数学求解)、ARC-C(科学问答)测试精度超过LLaMA3-700亿模型。Yuan2.0-M32大模型 基本信息如下:

  • 模型参数量: 40B
  • 专家数量: 32
  • 激活专家数: 2
  • 激活参数量: 3.7B
  • 训练数据量: 2000B tokens
  • 支持序列长度: 16K

同时,我们发布了Yuan2.0-M32模型的技术报告,可以通过论文查看更详细的技术细节与测评结果。

​编辑

Fig.1: Yuan 2.0-M32 架构图

2. Model Downl

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值