vllm指定gpu序号

最新推荐文章于 2025-03-24 14:17:23 发布

rommel rain

最新推荐文章于 2025-03-24 14:17:23 发布

阅读量1.7k

点赞数 4

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_52024723/article/details/143361660

版权

如果想要指定vllm serve 运行的1号gpu，不能仅仅在前面加CUDA_VISIBLE_DEVICES=1；

还需要在参数里指定device = cuda,因为不指定的话默认device是auto。

所以运行的命令应该是：

CUDA_VISIBLE_DEVICES={gpu序号} vllm serve {模型路径} --device cuda

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

rommel rain

关注关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

vllm专题（一）：安装-GPU

探索人工智能革命，深入算法原理与创新应用，未来科技无限可能。

02-16

517

vLLM 是一个 Python 库，支持以下 GPU 变体。vLLM 包含预编译的 C++ 和 CUDA（12.1）二进制文件。vLLM 支持配备 ROCm 6.3 的 AMD GPU。此设备没有预构建的 wheel 包，因此您必须使用预构建的 Docker 镜像或从源代码构建 vLLM。vLLM 初步支持在 Intel GPU 平台上进行基本模型推理和服务。此设备没有预构建的 wheel 包或镜像，因此您必须从源代码构建 vLLM。

Nvidia 系列之在 Ubuntu 22.04 中为 LLM 设置 Nvidia GPU

iCloudEnd的博客

08-01

393

在开始安装之前，我们先来了解一下要安装的内容：Nvidia 驱动程序 — 这是 Nvidia 的硬件驱动程序。安装前请先了解您的显卡型号。CUDA 工具包 — CUDA 工具包由 Nvidia 提供。它包含 GPU 加速环境中的库、编译器、开发工具和示例、CUDA 运行时等。cuDNN — Nvidia cuDNN 以 CUDA 深度神经网络为基础。它是一个针对 DNN 计算的高度优化的 GPU 加速库。

参与评论您还未登录，请先登录后发表或查看评论

vllm框架大模型部署笔记

Gu_erye的博客

08-12

4902

注意：张量并行计算的并行度通常需要与指定的 GPU 数量保持一致。这是因为张量并行计算的核心思想是将模型的张量（如权重矩阵）分割成多个部分，并将这些部分分布到多个 GPU 上进行并行计算。：通过存储进程 ID，可以方便地管理和终止后台运行的程序。

VLLM调优

最新发布

qq_46059596的博客

03-24

1360

vLLM 是一个高效的大模型推理框架，专为优化显存利用和高吞吐量设计。如果需要更具体的代码框架示例，可以进一步说明你的使用场景（如多GPU部署、API服务等）！这些代码需要在加载模型时一次性配置，且必须在调用。（如模型加载参数、显存优化、并行策略等）必须写在。（如解码策略、生成长度等）则在调用。部分系统级配置（如环境变量）需在。在 vLLM 中，所有与。

【杂记】vLLM如何指定GPU单卡离线推理

LZXCyrus的博客

11-19

3764

vLLM如何指定GPU单卡/多卡离线推理

利用免费 GPU 部署体验大型语言模型推理框架 vLLM

2201_75499313的博客

03-23

2667

vLLM 是一个快速且易于使用的 LLM（大型语言模型）推理和服务库。vLLM 之所以快速，是因为：最先进的服务吞吐量通过高效管理注意力键和值内存连续批处理传入请求使用 CUDA/HIP 图快速模型执行量化：GPTQ[1]、AWQ[2]、SqueezeLLM[3]、FP8 KV 缓存优化的 CUDA 内核vLLM 灵活且易于使用，因为它：与流行的 HuggingFace 模型无缝集成通过各种解码算法提供高吞吐量服务，包括并行采样、波束搜索等支持分布式推理的张量并行性支持流式输出。

vLLM CPU和GPU模式署和推理 Qwen2 等大语言模型详细教程

老牛啊

08-11

4000

vLLM默认并不支持纯CPU模式部署和推理模式，老牛同学应网友要求，根据vLLM官网整理vLLM在CPU模式下如何部署和推理大语音模型，并以Qwen2为了进行验证和演示……

指定python使用的GPU序号

vah101的专栏

01-09

1128

CUDA_VISIBLE_DEVICES=0 python3 app.py

为什么Python无法指定使用哪块GPU？如果试了两种方式都无效，那可能是因为序号不对应

weixin_43955436的博客

05-10

1607

直接上结论：指定的GPU序号和真实的序号并不是一一对应。代码中指定优先级高于shell指定 Pycharm全局搜索代码有没有其他地方有指定GPU CTRL+SHIFT+F (Windows) Command+Shift+F (Mac) 炼丹过程中，尝试了两种方式在代码中指定GPU，发现都没有正确指定，佛了。。全局搜索项目代码，其他没有任何地方指定了GPU。方式1 – 终端： CUDA_VISIBLE_DEVICES=0 python code.py 方式2 – 代码内部指定： import

图解大模型计算加速系列：vLLM源码解析3，Prefix Caching

强化学习曾小健

07-12

2176

当一个物理块没有任何逻辑块引用时（例如一个seq刚做完整个推理），这时它理应被释放。

开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界-集成vLLM（二）

热门推荐

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

09-18

2万+

掌握Qwen2-VL与vLLM集成，提升职业发展增添强大的竞争力

DB-GPT使用vLLM报错 ValueError: mutable default ＜class ‘list‘＞ for field ignore_patterns is not allowed:

m0_55387836的博客

08-26

1345

本篇文章主要记录本人debug的过程，该问题已经解决，可以直接看最下方的解决方式。在使用DB-GPT项目过程中由于默认使用的推理框架推理速度较慢，选择替换成vLLM框架，在DB-GPT项目文档中有使用vLLM推理的部分，但是写的极为简短，在使用过程中会发上上图的报错，为了debug于是先尝试在本地用pycharm进行调试。

【llm对话系统】llm大语言模型推理之vllm多gpu批推理

kakaZhui的博客

01-26

1111

参数来控制使用多少个 GPU 进行模型加载和推理。GPU 编号从 0 开始。分配的 GPU 顺序一致。

使用vLLM serve 为什么还是使用gpu0 ，怎么才能平均

keyboard专栏

11-03

2029

通过以上步骤，你应该能够让 vLLM 在多 GPU 上平均负载。如果还有问题，建议查阅 vLLM 的官方文档或 GitHub 问题跟踪页面，以获取更多关于多 GPU 使用的建议和解决方案。

vllm部署模型推理后怎么释放或者关掉占用的gpu资源

weixin_43744732的博客

05-21

6000

这里要代码释放gpu资源就需要实现close函数去手动关闭了，官方vllm目前没有实现关闭的函数，且目前vllm版本为vllm==0.4.0.post1。如果需要关闭占用的gpu资源直接关掉这个python进程就可以了。调用直接用http请求。

【实践总结】vllm多卡推理

qq_41502855的博客

07-28

8325

多卡推理，设置tensor_parallel_size=2，服务：Flask + gunicorn。多卡推理结果, 推理耗时11s。为什么多卡推理耗时更长了😵‍💫。环境：2* A100 40G。模型：qwen2-7B。

PyTorch强化学习——PyTorch基础详解

AAI666666的博客

02-02

1594

我们将使用 PyTorch 作为实现强化学习算法的数值计算库。PyTorch 是 Facebook 开发的科学计算和机器学习库，张量 (Tensor) 是 PyTorch 中的核心数据结构，类似于 NumPy 中的 ndarray。

解决vllm推理框架内在开启多显卡时报错问题

洛阳泰山的博客

03-26

3927

一般报错的原因情况有三种。

只需 24G 显存，用 vllm 跑起来 Yi-34B 中英双语大模型

arkohut的博客

12-28

6836

上次介绍了用 vllm 去部署 mixtral 8x7b 的 GPTQ 量化版本，只是跑了一下 benchmark，这次玩一下 Yi-34b 这个模型的量化版本，看看怎么使用 vllm 直接暴露出来一个 API 服务。

vllm控制gpu使用

12-27

### 如何配置 vLLM 以指定或限制 GPU 使用为了确保 vLLM 能够有效地跨多个 GPU 进行负载均衡，需要仔细调整环境变量和其他参数。 #### 设置环境变量正确配置环境变量对于启用多 GPU 支持至关重要。可以通过设置 `CUDA_VISIBLE_DEVICES` 来限定可用的 GPU 设备列表[^1]： ```bash export CUDA_VISIBLE_DEVICES=0,1,2,3 ``` 此命令会使得只有编号为 0 至 3 的四个 GPU 对程序可见并可用于计算资源分配。 #### 控制显存利用率除了选择哪些 GPU 参与运算外，还可以通过调节 `gpu_memory_utilization` 参数来优化每块 GPU 的内存占用情况。该选项允许设定各设备上的最大显存使用比例，默认值设为较高水平 (即 90%)，但在某些场景下调低这一数值有助于缓解潜在瓶颈[^2]: ```python from vllm import LLMEngine engine = LLMEngine( model="path/to/model", tensor_parallel_size=len(os.environ.get('CUDA_VISIBLE_DEVICES', '').split(',')), gpu_memory_utilization=0.7 # 将显存利用率降低至70% ) ``` 上述代码片段展示了如何创建一个引擎实例，并指定了较低的显存利用率作为启动参数之一。 #### 实现进程间通信与协作当涉及到大规模分布式训练时，还需要考虑不同节点间的同步机制以及数据共享策略等问题。不过，在单机环境下合理规划好硬件资源配置就已经能解决大部分性能问题了。