vllm serve 使用方法

vllm serve 是 vLLM 中简洁的命令行接口,用于快速启动 API 服务。以下是针对 vllm serve 命令的完整解析:


一、vllm serve 命令详解

vllm serve 是 vLLM 提供的命令行工具,用于快速部署兼容 OpenAI API 的 HTTP 服务器。它是对 python -m vllm.entrypoints.api_server 的封装,语法更简洁。

基础命令格式
vllm serve [OPTIONS] --model <model_name_or_path>

二、核心参数说明

1. 必选参数
  • --model <model_name_or_path>
    指定模型路径或 Hugging Face Hub 模型名称(如 meta-llama/Llama-2-7b-chat-hf)。

2. 模型加载参数
  • --dtype <auto|float16|bfloat16|float32>

### vLLM Serve 参数详解及用法 #### 配置选项概述 `vllm serve` 是用于启动模型服务的命令工具,提供了多种配置选项以满足不同场景下的需求。以下是主要参数及其功能说明: --- #### 模型加载相关参数 1. **`--model`** - 指定要加载的预训练模型名称或路径。 - 示例:`--model facebook/opt-125m` - 这一参数决定了后续推理过程中使用的具体模型。 2. **`--dtype`** - 定义模型权重的数据类型(如 `fp16`, `bf16`, 或 `int8`),从而影响内存占用和计算精度[^3]。 - 示例:`--dtype fp16` 3. **`--trust-remote-code`** - 是否信任远程代码并动态加载自定义实现的功能模块。 - 默认值为 `False`,启用时需谨慎评估安全性风险。 4. **`--tokenizer`** - 显式指定分词器文件的位置,默认会尝试自动解析模型匹配的分词器。 - 示例:`--tokenizer path/to/tokenizer.json` --- #### 推理性能调优参数 1. **`--max-batch-size`** - 设置最大批量大小,控制单次请求处理的最大样本数。 - 较高的批量化程度可能提升 GPU 利用率但增加延迟时间。 2. **`--gpu-memory-utilization`** - 调整显存分配比例,范围通常介于 0 和 1 之间。 - 示例:`--gpu-memory-utilization 0.9` 3. **`--quantization`** - 应用量化的技术减少模型尺寸而不显著降低质量,支持的方法包括 AWQ (Adaptive Weight Quantization)。 - 示例:`--quantization awq` 4. **`--kv-cache`** - 启用键值缓存机制加速重复序列生成过程中的响应速度[^1]。 - 取值可选布尔类型的开关标志位或者更精细调节策略字符串形式表达。 --- #### 并行化扩展性参数 1. **`--tensor-parallel-degree`** - 表明张量切片维度上的分布式级别数目,在多卡环境中尤为关键。 - 示例:`--tensor-parallel-degree 4` 2. **`--pipeline-parallel-degree`** - 设定流水线并行度数值,适用于超大规模网络结构拆解执行阶段划分情况之下。 3. **`--swapping`** - 开启磁盘交换特性缓解高负载条件下内存不足状况发生概率。 --- #### 日志记录调试辅助参数 1. **`--log-level`** - 控制输出日志等级类别,从最低到最高依次排列如下所示: - DEBUG, INFO, WARNING, ERROR, CRITICAL. - 示例:`--log-level info` 2. **`--monitoring-interval`** - 自定义监控指标采集频率间隔秒数设定项。 3. **`--dump-profile-directory`** - 将性能剖析资料保存至特定目录位置以便进一步分析诊断问题所在之处[^2]. --- #### 其他高级选项 1. **`--port`** - 修改 HTTP API监听端口号默认值(即8000). 2. **`--host`** - 更改绑定地址IP地址字段内容. 3. **`--ssl-keyfile / --ssl-certfile`** - 如果需要 HTTPS 加密连接,则提供相应的私钥证书链路信息材料. --- ```bash # 综合实例演示如何运行带有多个重要参数组合的服务进程 vllm serve \ --model bigscience/bloomz-7b1 \ --dtype bf16 \ --tensor-parallel-degree 2 \ --max-batch-size 32 \ --gpu-memory-utilization 0.85 \ --quantization int8 \ --log-level debug ``` 上述脚本片段展示了实际操作当中怎样综合运用各类可用参数构建高效稳定的大规模语言模型在线预测服务平台环境. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值