在 vLLM 中,python -m vllm.entrypoints.api_server 是用于启动基于 FastAPI 的 RESTful API 服务的命令。通过这个服务,用户可以方便地与部署的大语言模型(LLM)交互。以下是该命令的详细解析及 FastAPI 测试过程。
1. python -m vllm.entrypoints.api_server 命令详解
1.1 基本用法
bash
复制代码
python -m vllm.entrypoints.api_server \
--model <model_name_or_path> \
--tokenizer <tokenizer_name_or_path> \
--port <port_number> \
[--num-gpus <number_of_gpus>] \
[--tensor-parallel-size <parallel_size>] \
[--max-batch-size <batch_size>] \
[--kv-cache] \
[--log-level <log_level>]
1.2 参数详解
–model:
模型的名称或本地路径(例如 meta-llama/LLaMA-2-13b)。
–tokenizer:
Tokenizer 的名称或路径(与模型匹配)。
–port:
服务运行的端口号(默认 8000)。
–num-gpus:
使用的 GPU 数量。如果未指定,默认使用单卡。
–tensor-parallel-size: