vllm serve
是 vLLM 中简洁的命令行接口,用于快速启动 API 服务。以下是针对 vllm serve
命令的完整解析:
一、vllm serve
命令详解
vllm serve
是 vLLM 提供的命令行工具,用于快速部署兼容 OpenAI API 的 HTTP 服务器。它是对 python -m vllm.entrypoints.api_server
的封装,语法更简洁。
基础命令格式
vllm serve [OPTIONS] --model <model_name_or_path>
二、核心参数说明
1. 必选参数
-
--model <model_name_or_path>
指定模型路径或 Hugging Face Hub 模型名称(如meta-llama/Llama-2-7b-chat-hf
)。
2. 模型加载参数
-
--dtype <auto|float16|bfloat16|float32>