基于sglang 部署Qwen3-32B

长门349

已于 2025-04-30 22:54:51 修改

阅读量96

点赞数 2

文章标签：人工智能

于 2025-04-30 22:40:39 首次发布

本文链接：https://blog.csdn.net/2403_86862496/article/details/147641212

版权

2025年4月29日Qwen3开源
对于Qwen3的效果都是比较不错，

我也是做了一些小测试在算力云上部署了Qwen3—32B 用了四张卡，使用了vGPU-32GB * 4卡

对与sglang的使用也是到了sglang>=0.4.6.post1

下面是我当时部署时的环境和一些包
环境的创建：

conda create --name myenv python=3.10.16
conda activate myenv

模型下载：

pip install modelscope
export MODELSCOPE_CACHE=$(pwd)
modelscope download --model Qwen/Qwen3-32B

PyTorch 的版本:2.6.0+cu124

pip install torch==2.6.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124

依赖包

pip install sglang==0.4.6.post1
pip install triton==3.2.0
pip install pydantic
pip install orjson
pip install uvicorn
pip install uvloop
pip install fastapi
pip install zmq
pip install psutil
pip install transformers
pip uninstall torchvision -y
pip install torchvision==0.17.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install numpy==1.26.4
pip install triton==3.2.0
pip install dill
pip install partial-json-parser
pip install python-multipart
pip install pillow
pip install compressed-tensors
pip install torch==2.6.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124  
pip install torchvision==0.15.2+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install sgl_kernel
pip install torchao
pip install xgrammar

启动指令
参数 tp-size 为GPU数量我使用四个GPU

export HF_HUB_ENABLE_HF_TRANSFER=0

python -m sglang.launch_server \
  --model /root/autodl-tmp/models/Qwen/Qwen3-32B \
  --host 0.0.0.0 \
  --port 30000 \
  --tp-size 4 \
  --mem-fraction-static 0.70 \
  --max-total-tokens 4096 \
  --chunked-prefill-size 1024 \
  --schedule-policy fcfs