一、目录
- 模型参数单位
- 内存计算案例
- 显卡算力
- 推理显存计算
- 训练显存计算
- huggface 官网计算 模型推理/训练 需要的显存
- 大模型输入长度与显存的关系
- 大模型推理 多线程与显存的关系
参考:https://blog.csdn.net/Johntill/article/details/132629075
二、实现
-
模型参数单位
“10b”、“13b”、"70b"等术语通常指的是大型神经网络模型的参数数量。“10b” 意味着模型有大约 100 亿个参数。 -
内存计算案例
● fp32 精度,一个参数需要 32 bits, 4 bytes.
● fp16 精度,一个参数需要 16 bits, 2 bytes.
● int8 精度,一个参数需要 8 bits, 1 byte.
内存分配: 1.模型参数 2. 梯度 3.优化器参数。 -
显卡算力
显卡算力是什么?
显卡算力是指显卡能够在给定时间内完成多少次浮点运算。它用于评估显卡的性能。通常被表示为每秒执行的浮点运算次数,也称为 FLOPS(Floating Point Operations Per Second)。
计算显卡算力涉及到几个因素。首先,需要知道显卡的核心数量、时钟速度和每个核心的浮点运算单元数量。然后,将这些因素结合在一起,使用以下公式计算显卡算力:
显卡算力 = 核心数量 x 时钟速度 x 浮点运算单元数量
例如,如果显卡具有1280个核心,时钟速度为1400 MHz,每个核心具有两个浮点运