2025年4月29日Qwen3开源
对于Qwen3的效果都是比较不错,
我也是做了一些小测试 在算力云上部署了Qwen3—32B 用了四张卡,使用了vGPU-32GB * 4卡
对与sglang的使用也是到了sglang>=0.4.6.post1
下面是我当时部署时的环境和一些包
环境的创建:
conda create --name myenv python=3.10.16
conda activate myenv
模型下载:
pip install modelscope
export MODELSCOPE_CACHE=$(pwd)
modelscope download --model Qwen/Qwen3-32B
PyTorch 的版本:2.6.0+cu124
pip install torch==2.6.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124
依赖包
pip install sglang==0.4.6.post1
pip install triton==3.2.0
pip install pydantic
pip install orjson
pip install uvicorn
pip install uvloop
pip install fastapi
pip install zmq
pip install psutil
pip install transformers
pip uninstall torchvision -y
pip install torchvision==0.17.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install numpy==1.26.4
pip install triton==3.2.0
pip install dill
pip install partial-json-parser
pip install python-multipart
pip install pillow
pip install compressed-tensors
pip install torch==2.6.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124
pip install torchvision==0.15.2+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install sgl_kernel
pip install torchao
pip install xgrammar
启动指令
参数 tp-size 为GPU数量 我使用四个GPU
export HF_HUB_ENABLE_HF_TRANSFER=0
python -m sglang.launch_server \
--model /root/autodl-tmp/models/Qwen/Qwen3-32B \
--host 0.0.0.0 \
--port 30000 \
--tp-size 4 \
--mem-fraction-static 0.70 \
--max-total-tokens 4096 \
--chunked-prefill-size 1024 \
--schedule-policy fcfs