【人工智能】使用vLLM高性能部署Qwen大语言模型

林九生

于 2025-04-21 10:09:55 发布

阅读量459

点赞数 7

分类专栏：人工智能文章标签：人工智能语言模型自然语言处理

本文链接：https://blog.csdn.net/linjiuxiansheng/article/details/147382883

版权

人工智能专栏收录该内容

16 篇文章

订阅专栏

使用vLLM高性能部署Qwen大语言模型完整教程

前言

随着大语言模型的快速发展,如何高效部署模型服务成为一个重要话题。本文将详细介绍如何使用vLLM来部署通义千问(Qwen)大模型,实现高性能推理服务。

vLLM简介

vLLM是一个高性能的LLM推理和服务框架,具有以下特点:

PagedAttention技术,显著提升推理性能
兼容OpenAI API接口
支持张量并行等分布式推理
动态批处理优化吞吐量
支持多种主流大语言模型

环境准备

NVIDIA GPU服务器(建议A100/H100)
Docker & NVIDIA Container Toolkit
足够的显存(32B模型建议显存≥80GB)

部署步骤

1. 准备模型文件

首先需要下载Qwen模型文件,并放置在指定目录:

mkdir -p /Qwen/models
# 下载模型到/Qwen/models目录

2. 编写docker-compose配置

创建docker-compose.yml文件:

services:
  vllm:
    container_name: vllm
    restart: no
    image: vllm/vllm-openai:latest
    runtime: nvidia
    ipc: host
    environment:
      - HF_HUB_OFFLINE = 1
      - CUDA_VISIBLE_DEVICES = all
    volumes:
      - /Qwen/models:/models
    command: [
      "--model", "/models/Qwen/QwQ-32B",
      "--served_model_name", "qwen2-32B",
      "--gpu_memory_utilization", "0.90",
      "--max_model_len", "12288",
      "--tensor-parallel-size", "4"
    ]
    ports:
      - 8000:8000
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

3. 配置参数说明

HF_HUB_OFFLINE=1: 离线模式,不从HuggingFace下载
CUDA_VISIBLE_DEVICES=all: 使用所有可用GPU
--gpu_memory_utilization: GPU显存使用率限制
--max_model_len: 最大序列长度
--tensor-parallel-size: 张量并行度,根据GPU数量设置

4. 启动服务

docker-compose up -d

性能优化建议

调整显存使用率
根据实际情况调整gpu_memory_utilization参数,在0.8-0.95之间寻找最佳值。
优化张量并行

单GPU: 设置tensor-parallel-size=1
多GPU: 设置为GPU数量,实现模型并行

批处理优化
可以通过调整批处理相关参数提升吞吐量:

--max_num_batched_tokens 8192
--max_num_seqs 256

服务调用示例

服务启动后,可以通过OpenAI兼容接口调用:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")

completion = client.chat.completions.create(
    model="qwen2",
    messages=[
        {"role": "user", "content": "你好"}
    ]
)
print(completion.choices[0].message.content)