vLLM部署Qwen2.5-Omni 提供API的详细步骤

张3蜂

于 2025-04-11 09:45:55 发布

阅读量1.3k

点赞数 5

分类专栏： # 人工智能 # 神经网络效率工具文章标签：人工智能语言模型开源协议

本文链接：https://blog.csdn.net/AngelCryToo/article/details/147135457

版权

神经网络同时被 3 个专栏收录

70 篇文章

订阅专栏

人工智能

57 篇文章

订阅专栏

效率工具

14 篇文章

订阅专栏

1. 下载模型（官方或HuggingFace）

一、环境准备

1. 硬件要求

GPU：至少1张24GB显存显卡（如A10G/A100）
驱动：NVIDIA驱动≥525 + CUDA 11.8
内存：建议64GB+（用于处理长上下文）

2. 软件依赖

# 1. 安装CUDA工具包（以Ubuntu为例）
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"
sudo apt-get install cuda-11.8

# 2. 安装vLLM（推荐0.4.1+）
pip install vllm==0.4.1 transformers==4.40.0

二、模型下载与准备

1. 下载模型（官方或HuggingFace）

# 方式1：通过HuggingFace（需登录）
huggingface-cli download Qwen/Qwen2.5-Omni --local-dir /models/Qwen2.5-Omni

# 方式2：官方仓库（需Git LFS）
git lfs install
git clone https://www.modelscope.cn/qwen/Qwen2.5-Omni.git /models/Qwen2.5-Omni

2. 模型格式检查

确保模型目录包含：

/config.json
/model-00001-of-00003.safetensors
/tokenizer.json

三、启动vLLM API服务

1. 基础启动命令

# 单GPU启动（显存≥24GB）
python -m vllm.entrypoints.api_server \
  --model /models/Qwen2.5-Omni \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.9 \
  --max-num-seqs 256

2. 多GPU优化（2×A100示例）

# 添加--tensor-parallel-size参数
python -m vllm.entrypoints.api_server \
  --model /models/Qwen2.5-Omni \
  --tensor-parallel-size 2 \          # 与GPU数量一致
  --quantization awq \               # 4bit量化（显存需求↓50%）
  --enforce-eager \                  # 避免CUDA Graph兼容问题
  --max-model-len 8192               # 支持长上下文

3. 关键参数说明

参数	作用	推荐值
`--tensor-parallel-size`	GPU并行数	实际GPU数量
`--max-num-seqs`	并发请求数上限	根据显存调整
`--gpu-memory-utilization`	显存利用率阈值	0.8~0.9
`--quantization`	量化方式（awq/gptq）	awq（兼容性好）

四、API接口使用

1. 支持的端点

文本补全：POST /v1/completions
对话模式：POST /v1/chat/completions
模型信息：GET /v1/models

2. 请求示例（CURL）

# 文本生成
curl -X POST http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "如何部署Qwen2.5-Omni？",
    "max_tokens": 100,
    "temperature": 0.7
  }'

# 流式响应（SSE）
curl -X POST http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "解释一下注意力机制",
    "stream": true
  }'

3. 响应结构

{
  "choices": [{
    "text": "部署Qwen2.5-Omni需要先...",
    "index": 0
  }],
  "usage": {
    "prompt_tokens": 15,
    "completion_tokens": 100
  }
}

五、性能优化技巧

1. 动态批处理（默认开启）

通过调整--max-num-seqs控制并发批次大小
监控指标：vllm:batch_size（Prometheus可采集）

2. 显存优化

# 启用PagedAttention（默认开启）
# 使用AWQ量化（需转换模型）
python -m vllm.entrypoints.api_server \
  --model /models/Qwen2.5-Omni-AWQ \  # 需提前转换
  --quantization awq

3. 模型转换（AWQ量化）

# 1. 安装autoawq
pip install autoawq

# 2. 转换模型
python -m awq.entrypoint \
  --model_path /models/Qwen2.5-Omni \
  --output_path /models/Qwen2.5-Omni-AWQ \
  --w_bit 4 --q_group_size 128

六、生产级增强配置

1. Docker部署（推荐）

FROM nvidia/cuda:11.8.0-base
RUN pip install vllm==0.4.1
CMD ["python", "-m", "vllm.entrypoints.api_server", "--model", "/models/Qwen2.5-Omni"]

2. 安全防护

# Nginx反向代理配置
location /v1/ {
  proxy_pass http://vllm_server:8000;
  proxy_set_header X-API-Key "your_secret_key";  # 添加API密钥验证
  limit_req zone=api_limit burst=10;             # 限流
}