VLLM多卡并行优化策略

最新推荐文章于 2025-04-03 20:26:49 发布

爱刘温柔的小猪

最新推荐文章于 2025-04-03 20:26:49 发布

阅读量1k

点赞数 6

分类专栏： AIGC人工智能文章标签： ai 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42969135/article/details/145921992

版权

AIGC人工智能专栏收录该内容

17 篇文章

订阅专栏

一、多卡并行方式

多卡并行方式，分为张量并行（Tensor Parallelism）和数据并行（Data Parallelism）。

张量并行是将模型的不同层分布到不同GPU上。
而数据并行是每个GPU处理不同的输入数据。

VLLM多卡并行主要依赖 张量并行（Tensor Parallelism） 实现模型分布式推理。因此我们采用这种方案。

二、关键配置参数与策略

参数	作用说明	推荐值
CUDA_VISIBLE_DEVICES	为当前进程划定可使用的GPU范围	0,1,2,3 根据GPU显卡数量设定
–tensor-parallel-size	指定GPU并行数量（需与CUDA_VISIBLE_DEVICES数量一致）	2/4/8（根据模型规模调整）
–gpu-memory-utilization	显存利用率阈值（0.9~0.95为高负载场景推荐）	0.7~0.95
–max-model-len	最大输入长度（需根据GPU显存动态调整）	4096~16384

示例：

CUDA_VISIBLE_DEVICES=0,1,2,3 \  
vllm serve /path/to/model \  
--tensor-parallel-size 4 \  
--gpu-memory-utilization 0.9

三、高级优化策略（可选）

（1）通信优化

NCCL配置：

确保NCCL版本≥2.14（支持自动拓扑检测）
设置环境变量提升带宽：

export NCCL_ALGO=Tree  
export NCCL_SOCKET_IFNAME=eth0  # 指定高速网络接口

硬件拓扑适配：

优先使用NVLink互联的GPU组（通过nvidia-smi topo -m查看连接方式）
避免跨PCIe Switch的GPU分配（延迟增加30%+）

（2）显存管理

大模型低显存启用–swap-space 16G（利用主机内存扩展交换空间）
长序列推理降低–gpu-memory-utilization至0.7~0.8，避免OOM
动态批处理默认启用（无需配置），通过–max-num-seqs 256控制并发量

爱刘温柔的小猪

博客等级

码龄7年

158
原创

443
点赞

716
收藏

148
粉丝

关注

私信

热门文章

分类专栏

java 42篇
AIGC人工智能 17篇
常见问题 5篇
K8s+Istio+Docker 13篇
高效开发 14篇
Python 1篇
ElasticSearch 3篇
VUE 6篇
Linux 2篇
Jaeger 2篇
RabbitMQ 2篇
Hystrix 2篇
分布式Session 1篇
多线程 4篇
NIO 2篇
企业级用户注册&登录&第三方登录&单点登录 5篇
Redission 8篇
js&jq 9篇
FastDFS 5篇
压力测试 2篇
nginx 1篇
GateWay 1篇
seata 1篇
SpringCloud-Config 3篇
微信小程序 2篇
Docker 2篇
HTML 4篇
KendoUi 1篇

最新评论

SpringBoot中承接SSE流式输出的核心代码
造物主-Tony: 感谢博主回复，已经解决这个问题，因为我实在service中写的这段代码，往controller层返回的时候必须要对返回对象进行实列化才行，所以我把代码搬到controller层就不会出现这个问题了
SpringBoot中承接SSE流式输出的核心代码
爱刘温柔的小猪: private final SseEmitter emitter = new SseEmitter(0L); 这句就是实例化了呀，然后使用emitter.send()方法。不是SseEmitter.send()方法，你仔细看看是不是写错了。我的版本是2.0.4.RELEASE
SpringBoot中承接SSE流式输出的核心代码
造物主-Tony: 你好，博主麻烦问下你这个环境是spring boot哪个版本。我的是spring boot 1.x，在while循环中调用sendData2Client()方法中的SseEmitter.send()操作时，提示必须对SseEmitter实例化才行，控制台报错提示：Serialized class.servlet.mvc.method.annotation.SseEmitter.org.springframework.web.must.implement.java.io.Serializable
SpringBoot中承接SSE流式输出的核心代码
爱刘温柔的小猪: 前端需要用EventSource来配合流式输出，不然其实是在前端侧阻塞后，一起显示的。
SpringBoot中承接SSE流式输出的核心代码
Leuitong: 为什么我curl调用，虽然是流式输出，但为什么是接口请求完毕之后内容一起出来，而不是打字机效果一句一句出来

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。