模型内存计算

贾亚飞

已于 2024-03-11 17:03:16 修改

阅读量1.4k

点赞数 7

分类专栏： AI 文章标签：人工智能自然语言处理

于 2023-12-08 09:00:43 首次发布

本文链接：https://blog.csdn.net/weixin_40777649/article/details/134869404

版权

AI 专栏收录该内容

50 篇文章

订阅专栏

文章探讨了不同精度（fp32,fp16,int8）下内存计算的需求，以LLaMA-6B模型为例，计算了fp32和int8精度下的内存占用。同时解释了显卡算力的概念，以及如何通过核心数量、时钟速度等因素计算FLOPS。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、目录

内存计算
内存计算案例
显卡算力
1B参数显存计算： n*10^9 *4(fp32) /1024^3=3.72G

LLMs加载精度	1B参数量所需显存(GB)
fp32         	3.72
fp16 / bf16   	1.86
int8	        0.93

二、实现
内存计算案例
● fp32 精度，一个参数需要 32 bits, 4 bytes.
● fp16 精度，一个参数需要 16 bits, 2 bytes.
● int8 精度，一个参数需要 8 bits, 1 byte.
内存分配： 1.模型参数 2. 梯度 3.优化器参数。

内存计算案例
LLaMA-6B为例：
模型参数：等于参数量每个参数所需内存。
对于 fp32，LLaMA-6B 需要 6B4 bytes = 24GB内存
对于 int8，LLaMA-6B 需要 6B1 byte = 6GB
梯度：同上，等于参数量每个梯度参数所需内存。
对于 fp32，LLaMA-6B 需要 6B4 bytes = 24GB内存
对于 int8，LLaMA-6B 需要 6B1 byte = 6GB
优化器参数：不同的优化器所储存的参数量不同。
对于常用的 AdamW 来说，需要储存两倍的模型参数（用来储存一阶和二阶momentum）。
fp32 的 LLaMA-6B，AdamW 需要 6B8 bytes = 48 GB
int8 的 LLaMA-6B，AdamW 需要 6B2 bytes = 12 GB
除此之外，CUDA kernel也会占据一些 RAM，大概 1.3GB 左右，查看方式如下。
综上，int8 精度的 LLaMA-6B 模型部分大致需要 6GB+6GB+12GB+1.3GB = 25.3GB 左右
显卡算力
显卡算力是什么？
显卡算力是指显卡能够在给定时间内完成多少次浮点运算。它用于评估显卡的性能。通常被表示为每秒执行的浮点运算次数，也称为 FLOPS（Floating Point Operations Per Second）。
计算显卡算力涉及到几个因素。首先，需要知道显卡的核心数量、时钟速度和每个核心的浮点运算单元数量。然后，将这些因素结合在一起，使用以下公式计算显卡算力：
显卡算力 = 核心数量 x 时钟速度 x 浮点运算单元数量
例如，如果显卡具有1280个核心，时钟速度为1400 MHz，每个核心具有两个浮点运算单元，则该显卡的算力为
算力 = 1280 x 1400 x 2 = 3.584 TFLOPS