参考:LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]-腾讯云开发者社区-腾讯云
首次尝试vllm部署qwen遇到的一些问题
out of memeory
# 创建兼容 OpenAI API 接口的服务器
!python -m vllm.entrypoints.openai.api_server --host 127.0.0.1 --port 6006 --model /root/autodl-tmp/qwen/Qwen1.5-7B-Chat --served-model-name Qwen1.5-7B-Chat --gpu-memory-utilization=0.5 --max-model-len=2048
{"detail":"Not Found"}
接口创建成功以后,以下接口并不是直接点击打开食用的(误以为和streamlit一样了)
而是通过直接在shell发送请求
curl http://127.0.0.1:6006/v1/completions
-H "Content-Type: application/json"
-d '{
"model": "Qwen1.5-7B-Chat",
"prompt": "明天是周一,不想上班怎么办",
"max_tokens": 100,
"temperature": 0
}'
text中为模型返回结果: