A10服务器使用vllm推理框架成功运行Qwen3大模型

1.下载Qwen3大模型:

git clone https://www.modelscope.cn/Qwen/Qwen3-1.7B.git

放在服务器的/mnt/workspace/Qwen3-1.7B目录下。

2.创建python虚拟环境:

python3 -m venv venv1
source venv1/bin/activate

3.安装vllm推理框架

pip install vllm 

在这里插入图片描述

4.启动vllm服务

CUDA_VISIBLE_DEVICES=0 \
python3 -m vllm.entrypoints.openai.api_server \
        --model /mnt/workspace/Qwen3-1.7B \
        --served-model-name qwen3 \
        --gpu-memory-utilization=0.85 \
        --tensor-parallel-size 1 \
        --trust-remote-code

注意以下几点:
(1)如果不指定端口,则vllm默认端口是8000;
(2)参数gpu-memory-utilization必须加上,不然可能会报oom显存不足的错误;
(3)tensor-parallel-size的个数,取决于使用的GPU数量。
启动需加载1-2分钟左右,启动结果如下:
在这里插入图片描述
在这里插入图片描述

5.查询大模型

curl http://localhost:8000/v1/models

查询到名字为qwen3的模型:
在这里插入图片描述

6.调用大模型服务

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "qwen3",
  "messages": [
    {"role": "user", "content": "介绍一下你自己"}
  ],
  "temperature": 0.7,
  "top_p": 0.8,
  "top_k": 20,
  "max_tokens": 128,
  "presence_penalty": 1.5,
  "chat_template_kwargs": {"enable_thinking": false}
}'

返回结果:
在这里插入图片描述

7.显卡使用情况

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值