【实践】VLLM显存暴增 | 多卡推理 | 批量推理

最新推荐文章于 2025-03-24 17:21:58 发布

AI民工（读研版

最新推荐文章于 2025-03-24 17:21:58 发布

阅读量1.7w

点赞数 17

文章标签： python

本文链接：https://blog.csdn.net/m0_52942489/article/details/138079454

版权

文章讨论了在使用大型模型Llama3-8B时，显存占用异常高的问题，尤其是在vLLM中。通过调整gpu_memory_utilization参数和分析内存瓶颈，发现主要原因是KV缓存，尤其是PagedAttention机制导致的。文章还提到多卡环境下的内存使用情况和批量推理的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

显存占用问题

用两张A800跑Llama3-8B，按理说显存占用应该在16G以上，浮动2~3G，但是发现显存直接拉满了，一共花了140G
在这里插入图片描述
发现通过vllm.LLM创建模型时，有个参数控制GPU的使用量gpu_memory_utilization，其默认值为0.9，正好是140/160
将gpu_memory_utilization改成0.15，也就是160*0.15 =21G时，模型运行正常，且显存占用压到了21G

但问题就来了，为什么16G的模型在设置gpu_memory_utilization=0.9的时候，会占用140G的显存呢，除了模型本身的参数之外，显存里面还装了什么东西？

在 vLLM 中，我们发现 LLM 服务的性能受到内存的瓶颈。在自回归解码过程中，LLM 的所有输入标记都会生成其注意键和值张量，并且这些张量保存在 GPU 内存中以生成下一个标记。这些缓存的键和值张量通常称为 KV 缓存。这些缓存特别大，LLaMA-13B 中的单个序列最多占用 1.7GB。而且其大小取决于序列长度，序列长度变化很大且不可预测，vllm引入PagedAttention</

最低0.47元/天解锁文章