Calculating GPU memory for serving LLMs

我需要多少个GPU才能运行Llama 70B?为了回答这个问题,你需要知道大型语言模型需要多少GPU内存。

公式很简单:

M=\frac{P*4B}{32/Q}*1.2

 符号 描述
M以千兆字节表示的GPU内存
P模型中的参数数量。例如,一个7B模型有70亿个参数。
4B4字节,表示每个参数使用的字节
324字节中有32位
Q应使用多少位来加载模型。例如,16位,8位或4位。
1.2代表在GPU内存中加载额外内容的20%开销。

现在让我们试试一些例子。

为服务Llama 70B所需的GPU内存

让我们试试为Llama 70B加载16位。这个模型有700亿个参数。

\frac{70*4B}{32/16}*1.2=168GB

那可是相当大的内存。单个A100 80GB可能不够,尽管2个A100 80GB应该足够支持16位模式下的Llama 2 70B模型。

如何进一步减少Llama 2 70B所需的GPU内存?

量化是一种减少内存占用的方法。量化通过将模型参数的精度从浮点数降低到较低位表示,如8位整数,来实现这一点。这个过程显著降低了内存和计算需求,使得模型能够更有效地部署,特别是在资源有限的设备上。然而,它需要仔细管理以维持模型的性能,因为降低精度可能会影响输出的准确性。

总的来说,大家普遍认为8位量化的性能与使用16位相似。然而,4位量化可能会对模型性能产生明显影响。

让我们再来一个例子,我们使用4位量化的Llama 2 70B:

\frac{70*4B}{32/4}*1.2=42GB


这是你可以在2个L4 24GB的GPU上运行的东西。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值