LLM大模型显存计算

贾亚飞

已于 2024-01-12 10:42:50 修改

阅读量9.1k

点赞数 30

分类专栏： AI 文章标签：深度学习 pytorch 人工智能

于 2024-01-12 10:37:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40777649/article/details/135546473

版权

本文围绕大模型参数、不同精度对内存计算的影响、显卡算力概念、训练时显存需求、以及大模型输入长度与显存的关系展开，还涉及了多线程对显存占用的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、目录

模型参数单位
内存计算案例
显卡算力
推理显存计算
训练显存计算
huggface 官网计算模型推理/训练需要的显存
大模型输入长度与显存的关系
大模型推理多线程与显存的关系

参考：https://blog.csdn.net/Johntill/article/details/132629075

二、实现

模型参数单位
“10b”、“13b”、"70b"等术语通常指的是大型神经网络模型的参数数量。“10b” 意味着模型有大约 100 亿个参数。
内存计算案例
● fp32 精度，一个参数需要 32 bits, 4 bytes.
● fp16 精度，一个参数需要 16 bits, 2 bytes.
● int8 精度，一个参数需要 8 bits, 1 byte.
内存分配： 1.模型参数 2. 梯度 3.优化器参数。
显卡算力
显卡算力是什么？
显卡算力是指显卡能够在给定时间内完成多少次浮点运算。它用于评估显卡的性能。通常被表示为每秒执行的浮点运算次数，也称为 FLOPS（Floating Point Operations Per Second）。
计算显卡算力涉及到几个因素。首先，需要知道显卡的核心数量、时钟速度和每个核心的浮点运算单元数量。然后，将这些因素结合在一起，使用以下公式计算显卡算力：
显卡算力 = 核心数量 x 时钟速度 x 浮点运算单元数量
例如，如果显卡具有1280个核心，时钟速度为1400 MHz，每个核心具有两个浮点运

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。