vLLM 对本地模型多节点集群的支持说明及与ollama的对比

最新推荐文章于 2025-04-23 11:30:13 发布

学亮编程手记

最新推荐文章于 2025-04-23 11:30:13 发布

阅读量935

点赞数 18

分类专栏： chatgpt 文章标签： LLM 人工智能分布式

本文链接：https://blog.csdn.net/a772304419/article/details/146587891

版权

169 篇文章

订阅专栏

根据搜索结果，以下是关于 vLLM 多节点集群支持和 Ollama 单节点多 GPU 支持的详细分析：

vLLM 支持多节点集群部署，但需结合特定技术（如 Ray 或管道并行）实现。以下是关键点：

单节点多 GPU（张量并行）：适用于模型无法单 GPU 运行但能放入单节点多 GPU 的场景。例如，8 卡节点运行 70B 模型时，设置 --tensor-parallel-size=8 即可67 125。
多节点多 GPU（管道并行）：当模型无法放入单个节点时，需结合张量并行（单节点内）和管道并行（跨节点）。例如，2 个节点各 8 卡，设置 --tensor-parallel-size=8 --pipeline-parallel-size=267 125。

Ray 集群管理：vLLM 使用 Ray 或原生多进程管理分布式运行时。多节点部署需通过 run_cluster.sh 脚本启动容器集群，并确保节点间网络高效（如 Infiniband）67 70。
通信优化：跨节点需配置 NCCL 参数（如 NCCL_SOCKET_IFNAME）和高速网卡，避免因网络延迟导致性能下降67 74。

Ollama 支持单节点多 GPU，但需手动配置环境变量，且存在一定限制：

环境变量指定 GPU：通过 CUDA_VISIBLE_DEVICES 指定 GPU 索引，例如 export CUDA_VISIBLE_DEVICES=0,1,2,3 启用 4 卡101 105。
模型分片：大型模型（如 DeepSeek 70B）默认无法单卡运行，需通过 OLLAMA_GPU_LAYERS 参数分配模型层数到多卡，例如设置 OLLAMA_GPU_LAYERS=35 分片至多卡22 105。

负载均衡不足：Ollama 在多卡场景下通常仅利用单卡计算，无法自动分配任务至多卡，需依赖外部工具（如 accelerate 库）手动优化97 26。
显存瓶颈：即使启用多卡，显存占用可能仍不均衡。例如，加载 72B 模型时可能因显存不足报错 No available memory for the cache blocks，需降低 gpu_memory_utilization 或启用量化20 97。

脚本示例：通过启动脚本指定多卡并暴露服务，例如在 Linux 单节点部署 DeepSeek 模型时，设置 CUDA_VISIBLE_DEVICES=0,1,2,3 并启动 Ollama 服务101。
兼容性问题：AMD GPU 和部分旧 NVIDIA 显卡可能无法支持22 30。

框架	多节点集群支持	单节点多 GPU 支持	适用场景
vLLM	✅（需 Ray/管道并行）	✅（张量并行优化）	高吞吐推理、企业级多节点部署
Ollama	❌	✅（需手动配置）	轻量级本地部署、开发者调试