vLLM部署大模型

支持多卡部署
支持多机部署(非原生,nginx网关、ray等)
支持GPU、CPU混合运行
支持运行格式pt,safetensors,npcache,dummy,tensorizer,sharded_state,gguf,bitsandbytes,mistral,runai_streamer

环境信息

机器01
操作系统:Debain 12.9/Ubuntu 24.04
CPU:i7-10750H
内存:32G
显卡:GTX 1650(4G)
硬盘:SSD(1T)
IP:192.168.3.17

基础组件安装

基础组件安装

创建python虚拟环境

python3 -m venv ~/vllm
source ~/vllm/bin/activate

安装python模块

# 使用清华大学python源,https://pypi.tuna.tsinghua.edu.cn/simple
pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple
vllm --version
vllm -h
vllm serve -h

下载模型

modelscope download --model 'unsloth/DeepSeek-R1-Distill-Qwen-1.5B' --local_dir 'unsloth/DeepSeek-R1-Distill-Qwen-1.5B'

部署模型

# 部署safetensors模型
vllm serve ~/ollama/unsloth/DeepSeek-R1-Distill-Qwen-1.5B --enable-reasoning --reasoning-parser deepseek_r1 --dtype float16 --cpu-offload-gb 4 --max-model-len 16380 --api-key vl-5bgrMOCJ5OSBKQV5XbHz --port 16144
# 部署gguf量化模型
vllm serve ~/ollama/unsloth/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf --tokenizer ~/ollama/unsloth/DeepSeek-R1-Distill-Qwen-1.5B --enable-reasoning --reasoning-parser deepseek_r1 --max-model-len 16380 --api-key vl-5bgrMOCJ5OSBKQV5XbHz --port 16145

部署效果

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Eddy5x

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值