现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？

Soyoger

已于 2024-08-01 10:03:21 修改

阅读量407

点赞数 18

分类专栏：大模型应用落地架构实战文章标签：深度学习机器学习人工智能

于 2024-07-29 10:06:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36330643/article/details/140762897

版权

大模型应用落地架构实战专栏收录该内容

44 篇文章 4 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

添加图片注释，不超过 140 字（可选）

能下载到的模型普遍都是6/7B(小)、13B(中)、大(130B) 三种，比如ChatGLM 和Llama2 等。这个在数学上有什么讲究吗？

答案很简单，模型大小的设计主要是为了匹配显存。

6B参数的模型可以在12G、16G或24G显存的消费级显卡上进行部署和训练。如果一个公司的模型不打算在消费级显卡上部署，通常不会选择训练6B规模的模型。此外，还有一些1.4B或2.8B参数的模型，这些模型大小适合在手机、车载端进行量化部署。

13B模型在使用4k长度的数据进行训练时，数据并行度为2，刚好可以充分利用一个8卡机的显存，并且可以量化部署在A10甚至是4090显卡上。

更大规模的模型不仅限于130B。目前，常见的更大模型包括16B、34B、52B、56B、65B、70B、100B、130B、170B和220B等。这些模型的规模设计基本上是为了刚好匹配某种规格的算力，无论是用于训练还是推理。如果需要加快训练速度，只需倍增显卡数量即可。例如，我们训练7B模型时以8卡为单位，使用8x8卡进行训练；而训练70B模型时则以80卡为单位，使用80x6卡进行训练。

将大语言模型设计成6/7B、13B和130B等几

了解本专栏

超级会员免费看

关注

18
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Soyoger 听说打赏的都进了福布斯排行榜。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。