vLLM部署大模型

最新推荐文章于 2025-03-03 12:05:57 发布

Eddy5x

最新推荐文章于 2025-03-03 12:05:57 发布

阅读量769

点赞数 5

分类专栏： AI python 文章标签： python 机器学习深度学习

本文链接：https://blog.csdn.net/u012107402/article/details/145889322

版权

AI 同时被 2 个专栏收录

27 篇文章

订阅专栏

python

23 篇文章

订阅专栏

vLLM部署大模型

环境信息
基础组件安装
创建python虚拟环境
安装python模块
下载模型
部署模型
部署效果

支持多卡部署
支持多机部署（非原生，nginx网关、ray等）
支持GPU、CPU混合运行
支持运行格式pt,safetensors,npcache,dummy,tensorizer,sharded_state,gguf,bitsandbytes,mistral,runai_streamer

环境信息

机器01
操作系统：Debain 12.9/Ubuntu 24.04
CPU：i7-10750H
内存：32G
显卡：GTX 1650（4G）
硬盘：SSD（1T）
IP：192.168.3.17

基础组件安装

创建python虚拟环境

python3 -m venv ~/vllm
source ~/vllm/bin/activate

安装python模块

# 使用清华大学python源，https://pypi.tuna.tsinghua.edu.cn/simple
pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple
vllm --version
vllm -h
vllm serve -h

下载模型

modelscope download --model 'unsloth/DeepSeek-R1-Distill-Qwen-1.5B' --local_dir 'unsloth/DeepSeek-R1-Distill-Qwen-1.5B'

部署模型

# 部署safetensors模型
vllm serve ~/ollama/unsloth/DeepSeek-R1-Distill-Qwen-1.5B --enable-reasoning --reasoning-parser deepseek_r1 --dtype float16 --cpu-offload-gb 4 --max-model-len 16380 --api-key vl-5bgrMOCJ5OSBKQV5XbHz --port 16144
# 部署gguf量化模型
vllm serve ~/ollama/unsloth/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf --tokenizer ~/ollama/unsloth/DeepSeek-R1-Distill-Qwen-1.5B --enable-reasoning --reasoning-parser deepseek_r1 --max-model-len 16380 --api-key vl-5bgrMOCJ5OSBKQV5XbHz --port 16145