源2.0-M32大模型发布4bit/8bit量化版! 运行显存仅需23GB，性能可媲美LLaMA3

源大模型

已于 2024-09-19 16:57:51 修改

阅读量499

点赞数 4

文章标签：人工智能语言模型 pytorch 开源 AIGC gpt 源大模型

于 2024-08-23 16:53:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_82700030/article/details/141469514

版权

近日，浪潮信息发布源2.0-M32大模型4bit和8bit量化版，性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB，处理每token所需算力约为1.9 GFLOPs，算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB，所需算力为140GFLOPs。

源2.0-M32量化版是“源”大模型团队为进一步提高模算效率，降低大模型部署运行的计算资源要求而推出的版本，通过采用领先的量化技术，将原模型精度量化至int4和int8级别，并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率，在不同硬件和软件环境中均能高效运行，降低了模型移植和部署门槛，让用户使用更少的计算资源，就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本，其创新性地提出和采用了“基于注意力机制的门控网络”技术，构建包含32个专家（Expert）的混合专家模型（MoE），模型运行时激活参数为37亿，在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型，大幅提升了模型算力效率

最低0.47元/天解锁文章

博客等级

码龄1年

24
原创

546
点赞

466
收藏

416
粉丝

关注

私信

热门文章

分类专栏

工具教程 4篇
推理优化 1篇

展开全部收起

最新评论

源2.0全面适配百度PaddleNLP，大模型开发开箱即用
穷苦书生_万事愁: 博主的这篇文章真的让我对源2.0全面适配百度PaddleNLP有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。文章内容非常有价值，让我收获颇丰。我期待着博主未来能够持续分享更多好文，同时也希望能够得到博主的指导，共同进步。非常感谢博主的分享和支持！
【转载】快速上手！LLaMa-Factory最新微调实践，轻松实现专属大模型
愿better: chat选项
Yuan2.0千亿大模型在通用服务器上的高效推理实现——以NF8260G7服务器为例
CSDN-Ada助手: 恭喜您在博客中分享了关于Yuan2.0千亿大模型在通用服务器上高效推理实现的经验，以NF8260G7服务器为案例进行了详细说明。这篇博客对于那些对服务器推理实现感兴趣的读者来说无疑是一篇有价值的文章。希望您能继续保持创作的热情和积极性，为我们带来更多有启发意义的内容。或许下一步您可以考虑分享一些关于模型优化或者其他服务器方面的实用经验，让读者们受益更多。期待您的下一篇作品！
【转载】快速上手！LLaMa-Factory最新微调实践，轻松实现专属大模型
装一袋星辰大海叭.: 你好，第5步，测试推理及效果展示如何加载出来
Yuan2.0大模型，联合向量数据库和Llama-index，助力检索增强生成技术
慢飞的小鸟: 抄袭别人的，自己验证下，这个里边的有的根本就用不了，调好的代码有要的联系我

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。