关于vllm
- 官方网址: https://vllm.ai
- 官方 github 地址:https://github.com/vllm-project/vllm
- 支持的模型:Supported Models — vLLM
机器环境
- 系统:linux ubuntu
- GPU:RTX 4090D(24GB) * 1(单卡)
- miniconda:conda3
- python:3.9/3.10
本地部署操作步骤(部署Meta-Llama3-8b):
-
下载模型到linux机器,可以参考开源大模型(LLM)下载-CSDN博客
-
设置conda环境(新建conda环境,并激活)
- conda create -n llama3-8b python=3.9 -y
- conda activate llama3-8b
3. 安装vllm: pip install vllm
4. 运行模型(注意模型参数大的话,需要更大内存的gpu,否则本地运行不起来)
python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Meta-Llama3-8b --trust-remote-code --port 6006
其中/root/autodl-tmp/Meta-Llama3-8b 是模型所在的文件夹路径