正如文章标题所言,你是否也曾好奇过:加载使用一个 70B 大小的 LLM,究竟需要多大的 GPU 显存呢?读完这篇文章应该会有答案。
为什么是GPU,而不是CPU
AI 本质上是大量的 矩阵 与
向量
运算 ,属于计算密集型运算,需要大量的内存空间来保存模型的训练参数。一般通用 CPU 运算单元都是标量
,而 GPU 是一个把SIMD(单指令多数据)和SIMT(单指令多线程)运用到极致的协处理器,在体系结构上实现了运算单元的高度并行。
简单讲,就是 GPU 比 CPU 更适合用来做计算密集型任务。而 LLM 的推理、部署过程恰巧就是计算型任务。所以 GPU 比 CPU 更加适合用来运行 LLM 运算。
有一个有趣的事实,GPU的全称是Graphic Processing Unit,从名字中就能看出它最初被设计用来处理图像渲染相关的。但是命运似乎开了一个玩笑,没想到后来ML/AI也长成了矩阵的模样。GPU 就顺其自然的接管 AI/ML 甚至 LLM 运算了。
如何计算 GPU Memory
在大模型的使用过程中,有几个因素会影响 GPU Memory 的占用大小,主要包含以下几个因素:
- 模型自身大小
- Key-Value Cache
- Memory Overhead
模型大小
模型本身的大小在很大程度上,决定了需要使用 GPU Memory 的大小。模型越大,需使用的 GPU 内存越大。
模型的大小由 2 部分决定:模型参数量
和 数据精度类型
模型参数量
也就是进行模型训练的参数个数,单位是B(Billion缩写)。比如 GPT-3 的参数量是 175 Billion,LLaMa-2 13B
的参数量就是13 BIllion。
参数数据类型
也就是模型的输入参数数据类型,有float32或float16或者float8等。例如,在 PyTorch 中,你可以通过以下方式指定数据类型:
import torch`` ``# 设置数据类型为 float16``torch.set_default_dtype(torch.float16)`` ``# 创建一个 Transformer 模型实例``model = TransformerModel()
不同的数据类型,每个参数占用的大小也不一样:
float32 : 1 个参数占用 4 个 byte
float16 :1 个参数占用 2 个 byte
8 bit :1 个参数只占用 1 个 byte
假设我们使用 float16 加载 LLaMa-2 13B 的模型,那最终加载模型的内存大小为 : 13 Billion * 2 byte = 26 GB。
Key-Value Cache
KV缓存(Key-Value Cache)是 Transformer 模型在自回归解码过程中使用的一种优化技术,主要是用来提升大模型的推理速度。它通过缓存之前计算得到的 键Key
和 值Value
向量来减少重复计算,从而提高推理效率。大体思想其实跟动态规划DP中的以空间换时间差不多。
计算公式如下:
2 \* n\_dtype \* n\_layers \* n\_hidden\_size
参数解释:
2 代表每个 KV-Cache 都需要保存 2 个byte 来分别缓存 Key 和 Value。
n_dtype 就是上文中提到的参数数据类型。这个参数确保了模型在处理数据时使用正确的数据类型,从而避免潜在的精度问题。
n_layers 表示Transformer中编码器和解码器的层数总和。每个编码器层和解码器层都包含自注意力机制和前馈神经网络,通过堆叠多个这样的层,可以增加模型的深度和表达能力。
n_hidden_size 指隐藏层的维度大小。神经网络通常包括输入层、隐藏层和输出层,而n_hidden_size就是用来定义隐藏层的维度大小。
同样还是以 LLaMa-2 13B 模型举例,数据类型为 float16,1 个 token 的 KV Cache 大小为:
2 \* 2 \* 40 \* 5120 = 820 KB/token
LLaMa-2 13B 的 n_layers是 40,n_hidden_size是 5120,所以最终结果是 820 KB。
800 KB 看起来并不是很多,但这只是仅仅一个 Token 的使用。在实际的大模型应用中里,用户的输入Input和大模型的输出Output,往往是需要使用成千上万个 Token 来推理得出的。
比如使用 “Token 计算网站” 来计算 “上海今天天气怎么样?” 这句话会使用多少 Token。结果如下:
可以看出总共占用了 5 个 Token。然后输出结果如下:
可以看出大模型输出上海天气结果使用了 54 个 Token。
因此 “上海今天天气怎么样?” 这句 Query,大模型LLM总共使用了 5 + 54 个 Token。每个 Token 需使用 800KB,因此这次 Query 总共需要使用 59 * 800 KB = 46MB。
注意:实际场景中,LLM有可能接收到更多 Token 的输入Input,比如处理长文本等需求。 LLaMa-2 13B 单个请求可设置的最大 Token 数是 4096 个。因此 LLaMa-2 13B 单次能处理的最大 KV-Cache 就是 4096 * 820 KB = 3.2 GB。另外随着并发请求次数的增多,这个数字还会成倍的增长!
Memory Overhead
在 LLM 的推理过程中,还有一些碎片化的临时变量。这些临时变量也需要占用 GPU Memory。所以除了模型大小、KV-Cache 之外,还需要有一定的额外内存开销。一般可以使用模型大小 + KV-Cache最大值的 10% 来当做额外内存开销的大小。
GPU Memory 总计算公式
要计算所有大模型在使用过程中需要的 GPU Memory,需要将所有上述提到的因素都考虑到。下面公式是一个完整的计算公式:
Total GPU Memory = 模型大小 + KV Cache + Memory Overhead
最后还是以 LLaMa-2 13B 来举例。假设有 10 个并发请求,同时请求 LLaMa-2 13B 以最大 Token数(4096) 进行模型推理。 那最终需要的 GPU Memory 计算过程如下:
-
模型大小= 13 Billion * 2 Bytes = 26 GB
-
Total KV cache= 800 KB * 4096 Tokens * 10 并发请求 = 32 GB
-
Memory Overhead= 0.1 * (26 GB + 32 GB) = 5.8 GB
所以最终需要总 GPU memory为: 26 GB + 32 GB + 5.8 GB = 63.8 GB。需要 2 块英伟达的 A100 芯片才可以。
常见大模型的 GPU Memory
下面 2 张表格分别描述了不同大小的模型,根据不同Token数以及不同并发请求数的情况下,所需要的 GPU Memory 大小。
单次并发请求:
10 次 并发请求:
可以看出随着并发请求数、Token数,以及大模型大小的增长,GPU Memory的增长是很恐怖的,这样硬件算力的成本太高。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。