vllm大模型部署

jiandang.wu

已于 2024-12-15 22:38:37 修改

阅读量2k

点赞数 6

分类专栏：大模型自然语言处理文章标签： llama 语言模型

于 2024-12-11 16:57:25 首次发布

本文链接：https://blog.csdn.net/ice5257/article/details/144405087

版权

在 vLLM 中，python -m vllm.entrypoints.api_server 是用于启动基于 FastAPI 的 RESTful API 服务的命令。通过这个服务，用户可以方便地与部署的大语言模型（LLM）交互。以下是该命令的详细解析及 FastAPI 测试过程。

1. python -m vllm.entrypoints.api_server 命令详解

1.1 基本用法
bash
复制代码

python -m vllm.entrypoints.api_server \
    --model <model_name_or_path> \
    --tokenizer <tokenizer_name_or_path> \
    --port <port_number> \
    [--num-gpus <number_of_gpus>] \
    [--tensor-parallel-size <parallel_size>] \
    [--max-batch-size <batch_size>] \
    [--kv-cache] \
    [--log-level <log_level>]

1.2 参数详解
–model:
模型的名称或本地路径（例如 meta-llama/LLaMA-2-13b）。

–tokenizer:
Tokenizer 的名称或路径（与模型匹配）。

–port:
服务运行的端口号（默认 8000）。

–num-gpus:
使用的 GPU 数量。如果未指定，默认使用单卡。

–tensor-parallel-size: