vllm大模型部署

在 vLLM 中,python -m vllm.entrypoints.api_server 是用于启动基于 FastAPI 的 RESTful API 服务的命令。通过这个服务,用户可以方便地与部署的大语言模型(LLM)交互。以下是该命令的详细解析及 FastAPI 测试过程。

1. python -m vllm.entrypoints.api_server 命令详解

1.1 基本用法
bash
复制代码

python -m vllm.entrypoints.api_server \
    --model <model_name_or_path> \
    --tokenizer <tokenizer_name_or_path> \
    --port <port_number> \
    [--num-gpus <number_of_gpus>] \
    [--tensor-parallel-size <parallel_size>] \
    [--max-batch-size <batch_size>] \
    [--kv-cache] \
    [--log-level <log_level>]

1.2 参数详解
–model:
模型的名称或本地路径(例如 meta-llama/LLaMA-2-13b)。

–tokenizer:
Tokenizer 的名称或路径(与模型匹配)。

–port:
服务运行的端口号(默认 8000)。

–num-gpus:
使用的 GPU 数量。如果未指定,默认使用单卡。

–tensor-parallel-size:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值