大模型的参数计算

最新推荐文章于 2024-08-10 10:45:33 发布

HockerF

最新推荐文章于 2024-08-10 10:45:33 发布

阅读量935

点赞数 6

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-NC-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012939880/article/details/136911525

版权

文章探讨了在计算大模型参数时，为何使用B作为单位而非G，以及如何将6B参数转换为GB显存需求。提到训练过程中所需的额外显存和RoLA等低参数训练方法以降低能耗。

摘要由CSDN通过智能技术生成

我们说的大模型参数量都是6B,130B等等, 一般模型运行需要多少显存呢.

我其实在想,为啥要发明一个B出来, 我们用G来描述不香吗.

推理过程:
计算的公式是 $\frac{B}{(1.024)^3}\times sizeof(参数类型)$
比如6B全精度, 那就是 $\frac{6}{(1.024)^3}\times sizeof(float)\approx22.35GB$ , 当然,一个模型计算,除了模型参数外还有一些计算参数, 但是大概显存在22.35G左右.

训练过程:
训练过程要保存梯度等计算过程, 所以需要上面的 $G * 4$ ,也就是说, 上面全精度6B需要 $G\times4\approx22.35\times4=89.40GB$ 显存. 如果是24G显存的显卡, 需要4张才能够展开训练.

当然训练速度能耗也是大家需要考虑的, 所以可以考虑RoLA 等低参数训练方式.

有什么不对的地方, 欢迎指出, 一起学习!

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
大模型的参数计算

当然,一个模型计算,除了模型参数外还有一些计算参数, 但是大概显存在22.35G左右.当然训练速度能耗也是大家需要考虑的, 所以可以考虑RoLA 等低参数训练方式.我们说的大模型参数量都是6B,130B等等, 一般模型运行需要多少显存呢.我其实在想,为啥要发明一个B出来, 我们用G来描述不香吗.显存. 如果是24G显存的显卡, 需要4张才能够展开训练.训练过程要保存梯度等计算过程, 所以需要上面的。有什么不对的地方, 欢迎指出, 一起学习!,也就是说, 上面全精度6B需要。比如6B全精度, 那就是。
复制链接

扫一扫

HockerF

CSDN认证博客专家 CSDN认证企业博客

码龄11年

389: 原创

1万+: 周排名

6633: 总排名

61万+: 访问

: 等级

8833: 积分

298: 粉丝

477: 获赞

370: 评论

931: 收藏

私信

关注

热门文章

分类专栏

最新评论

pyimgui 中文
X7902178: 还是加载不出来，一用就报错
挂载 ntfs u盘报错
夜阑风听雨: 一直挂载不上，非常有用，感谢
verilog 语法及特点
HockerF: 我也是在学习
[python] __setitem__与__getitem__的使用
是Yu欸: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
富文本在线编辑器 - tinymce
是Yu欸: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。