【bug解决】vllm部署qwen

参考:LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]-腾讯云开发者社区-腾讯云

首次尝试vllm部署qwen遇到的一些问题

out of memeory

# 创建兼容 OpenAI API 接口的服务器
!python -m vllm.entrypoints.openai.api_server --host 127.0.0.1 --port 6006 --model /root/autodl-tmp/qwen/Qwen1.5-7B-Chat --served-model-name Qwen1.5-7B-Chat --gpu-memory-utilization=0.5 --max-model-len=2048

{"detail":"Not Found"}

接口创建成功以后,以下接口并不是直接点击打开食用的(误以为和streamlit一样了)

而是通过直接在shell发送请求

curl http://127.0.0.1:6006/v1/completions     
-H "Content-Type: application/json"     
-d '{
        "model": "Qwen1.5-7B-Chat",
        "prompt": "明天是周一,不想上班怎么办",
        "max_tokens": 100,
        "temperature": 0
    }'

text中为模型返回结果: 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值