vllm报错out of memory解决

最新推荐文章于 2024-06-14 23:28:51 发布

凌漪_

最新推荐文章于 2024-06-14 23:28:51 发布

阅读量255

点赞数 3

文章标签：大模型

本文链接：https://blog.csdn.net/a61022706/article/details/139629995

版权

通过调低–gpu-memory-utilization的比例（默认为0.9），可以避免此问题

model = LLM(
    args.model_name_or_path,
    trust_remote_code=True,
    tensor_parallel_size=num_gpus,
    max_model_len = 2048,
    gpu_memory_utilization=0.8
)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

凌漪_

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
vllm报错out of memory解决

通过调低–gpu-memory-utilization的比例（默认为0.9），可以避免此问题。
复制链接

扫一扫

Pytorch GPU显存充足却显示out of memory的解决方式

09-18

今天小编就为大家分享一篇Pytorch GPU显存充足却显示out of memory的解决方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

CUDA out of memory.最简单粗暴的解决办法

weixin_43213895的博客

09-19

2744

最近在跑一个神经网络时，出现：CUDA out of memory.的错误，可能是因为GPU内存不足的原因，最简单粗暴的方法就是将batch_size减小，但是会变慢。

参与评论您还未登录，请先登录后发表或查看评论

【实践】VLLM显存暴增 | 多卡推理 | 批量推理

m0_52942489的博客

04-23

4036

用两张A800跑Llama3-8B，按理说显存占用应该在16G以上，浮动2~3G，但是发现显存直接拉满了，一共花了140G发现通过vllm.LLM创建模型时，有个参数控制GPU的使用量，其默认值为0.9，正好是140/160将改成0.15，也就是160*0.15 =21G时，模型运行正常，且显存占用压到了21G但问题就来了，为什么16G的模型在设置的时候，会占用140G的显存呢，除了模型本身的参数之外，显存里面还装了什么东西？在 vLLM 中，我们发现 LLM 服务的性能受到内存的瓶颈。

vllm部署模型推理后怎么释放或者关掉占用的gpu资源

weixin_43744732的博客

05-21

570

这里要代码释放gpu资源就需要实现close函数去手动关闭了，官方vllm目前没有实现关闭的函数，且目前vllm版本为vllm==0.4.0.post1。如果需要关闭占用的gpu资源直接关掉这个python进程就可以了。调用直接用http请求。

LLM - CUDA out of memory. 到底怎么事

BITDDD小栈

08-10

1952

torch.cuda.OutOfMemoryError: CUDA out of memory. 报错日志分析与解决。

怎么推理还cuda out of memory

AliceH1226的博客

12-30

137

推理还cuda out of memory 是有问题的，要加上不计算梯度的with torch.no_grad()

解决Python运行文件出现out of memory框的问题

09-19

今天小编就为大家分享一篇解决Python运行文件出现out of memory框的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Git使用小坑 Out of memory错误的解决方法

09-30

主要介绍了Git使用小坑 Out of memory错误的解决方法,需要的朋友可以参考下

解决Out of memory问题

07-07

解决Out of memory问题，玩游戏的童鞋遇到的问题，希望能帮到那些遇到此类问题的童鞋

详解Pycharm出现out of memory的终极解决方法

09-17

主要介绍了详解Pycharm出现out of memory的终极解决方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

大模型训练中CUDA out of memory的几种解决方法

smartcat2010的博客

05-26

999

2. 如果需要较大的batch size来达到预期训练指标效果，则使用gradient accumulation来累积梯度，达到等价效果的同时，占用显存小；6. 缓解PyTorch的显存碎片；PYTORCH_CUDA_ALLOC_CONF和max_split_size_mb。3. 使用低精度做训练。torch.cuda.empty_cache()10. 使用nvidia-smi看到该GPU上的其他进程；9. Model并行或者Pipeline并行，把模型拆分至多卡。4. 减小训练数据样本的长度。

求助！RuntimeError: CUDA out of memory. Tried to allocate 16.00 MiB (GPU 0； 6.00 GiB total capacity； 5.

xtz_zy的博客

05-26

164

求助大神们！！！CUDA out of memory问题

解决大模型训练中的CUDA out of memory

weixin_52147110的博客

06-14

510

首先查看了训练 SFTTrainer 中的精度（sft_trainer.py 官方文档 line253）如下，说明只有当模型是4bit且不是 shared QLoRA 时，才会调用 peft_module_casting_to_bf16 函数，将PEFT模块转换为bf16（bfloat16）精度。该模型符合要求，因此去修改peft模块中的参数 bf16=False，但是还是报错，后来逐步检查发现是在模型训练初始阶段设置了bf16，将其改为float16就可以了。，于是尝试做了修改并实现了成功。

2024年公关服务行业分析报告.pptx

07-09

行业报告

惠州市建筑物矢量数据（Shp格式+带高度）.txt

最新发布

07-09

因文件较多，数据存放网盘，txt文件内包含下载链接及提取码，永久有效。失效会第一时间进行补充。

Matlab语言教程及案例

07-09

项目总结本文详细介绍了Matlab的基础知识和一个完整的数据分析与可视化案例。内容包括： 1. **基本操作**：基本算术运算和矩阵操作。 2. **绘图**：二维和三维绘图。 3. **函数和脚本**：编写和运行Matlab函数和脚本。 4. **案例分析**：生成模拟数据，进行数据预处理、绘图和统计分析。通过这个项目，读者可以掌握Matlab的基本使用方法，并了解如何在Matlab中进行数据分析和可视化。这对于初学者入门Matlab编程、提升数据处理和分析能力非常有帮助。希望本文能为读者提供有价值的参考，提升其Matlab编程和数据分析技能。

07-09

07-09

10-18

out of memory报错通常是由于程序使用的内存超出了系统或进程的限制，导致程序无法继续执行。解决这个问题的方法有以下几种： 1. 减少程序使用的内存：可以通过优化算法、减少数据量等方式来降低程序使用的内存。 2. 增加系统或进程的内存限制：可以通过修改系统或进程的配置文件来增加内存限制，但这种方法可能会影响系统的稳定性。 3. 使用分布式计算：可以将任务分配到多台计算机上进行计算，从而避免单台计算机内存不足的问题。 4. 使用虚拟内存：可以将部分数据存储在硬盘上，从而释放内存空间。但是，使用虚拟内存会降低程序的运行速度。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交