基于sglang 部署Qwen3-32B

2025年4月29日Qwen3开源
对于Qwen3的效果都是比较不错,

我也是做了一些小测试  在算力云上部署了Qwen3—32B 用了四张卡,使用了vGPU-32GB * 4卡

对与sglang的使用也是到了sglang>=0.4.6.post1
 

下面是我当时部署时的环境和一些包
环境的创建:

conda create --name myenv python=3.10.16
conda activate myenv

模型下载:

pip install modelscope
export MODELSCOPE_CACHE=$(pwd)
modelscope download --model Qwen/Qwen3-32B

PyTorch 的版本:2.6.0+cu124
 

pip install torch==2.6.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124

依赖包

pip install sglang==0.4.6.post1
pip install triton==3.2.0
pip install pydantic
pip install orjson
pip install uvicorn
pip install uvloop
pip install fastapi
pip install zmq
pip install psutil
pip install transformers
pip uninstall torchvision -y
pip install torchvision==0.17.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install numpy==1.26.4
pip install triton==3.2.0
pip install dill
pip install partial-json-parser
pip install python-multipart
pip install pillow
pip install compressed-tensors
pip install torch==2.6.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124  
pip install torchvision==0.15.2+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install sgl_kernel
pip install torchao
pip install xgrammar

启动指令
参数 tp-size 为GPU数量 我使用四个GPU

export HF_HUB_ENABLE_HF_TRANSFER=0

python -m sglang.launch_server \
  --model /root/autodl-tmp/models/Qwen/Qwen3-32B \
  --host 0.0.0.0 \
  --port 30000 \
  --tp-size 4 \
  --mem-fraction-static 0.70 \
  --max-total-tokens 4096 \
  --chunked-prefill-size 1024 \
  --schedule-policy fcfs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值