-m vllm.entrypoints.openai.api_server | 使用vLLM的OpenAI API服务器入口 | 无 |
-h | 显示帮助信息 | 无 |
--model MODEL | Hugging Face模型的名称或路径 | “facebook/opt-125m” |
--tokenizer TOKENIZER | Hugging Face分词器的名称或路径,如果未指定则使用模型名称或路径 | 无 |
--skip-tokenizer-init | 跳过分词器和反分词器的初始化 | 无 |
--revision REVISION | 特定模型版本的使用,可以是分支名称、标签名称或提交ID | 使用默认版本 |
--code-revision CODE_REVISION | 模型代码的特定修订版本,可以是分支名称、标签名称或提交ID | 使用默认版本 |
--tokenizer-revision TOKENIZER_REVISION | 分词器的修订版本,可以是分支名称、标签名称或提交ID | 使用默认版本 |
--tokenizer-mode {auto,slow} | 分词器模式,"auto"使用快速分词器(如果可用),"slow"始终使用慢速分词器 | “auto” |
--trust-remote-code | 信任来自Hugging Face的远程代码 | 无 |
--download-dir DOWNLOAD_DIR | 权重下载和加载的目录,默认为Hugging Face的默认缓存目录 | 无 |
--load-format {auto,pt,safetensors,npcache,dummy,tensorizer,bitsandbytes} | 模型权重加载的格式 | “auto” |
--dtype {auto,half,float16,bfloat16,float,float32} | 模型权重和激活的数据类型 | “auto” |
--kv-cache-dtype {auto,fp8,fp8_e5m2,fp8_e4m3} | KV缓存存储的数据类型,如果"auto",将使用模型数据类型 | “auto” |
--quantization-param-path QUANTIZATION_PARAM_PATH | 包含KV缓存缩放因子的JSON文件路径 | 无 |
--max-model-len MAX_MODEL_LEN | 模型上下文长度,如果未指定,将自动从模型配置中推导 | 无 |
--guided-decoding-backend {outlines,lm-format-enforcer} | 用于引导解码的引擎,支持outlines-dev/outlines和noamgat/lm-format-enforcer | “outlines” |
--distributed-executor-backend {ray,mp} | 分布式服务的后端,多GPU时自动设置为"ray"(如果安装)或"mp"(多进程) | 无 |
--worker-use-ray | 已弃用,请使用--distributed-executor-backend=ray | 无 |
--pipeline-parallel-size, -pp | 流水线阶段的数量 | 1 |
--tensor-parallel-size, -tp | 张量并行副本的数量 | 1 |
--max-parallel-loading-workers MAX_PARALLEL_LOADING_WORKERS | 并行加载模型时使用的多个批次,以避免使用张量并行和大型模型时的RAM OOM | 无 |
--ray-workers-use-nsight | 如果指定,使用nsight分析Ray工作进程 | 无 |
--block-size {8,16,32} | 连续令牌块的令牌块大小 | 16 |
--enable-prefix-caching | 启用自动前缀缓存 | 无 |
--disable-sliding-window | 禁用滑动窗口,限制为滑动窗口大小 | 无 |
--use-v2-block-manager | 使用BlockSpaceManagerV2 | 无 |
--num-lookahead-slots NUM_LOOKAHEAD_SLOTS | 推测性解码的实验性调度配置,将来将被推测性配置替代 | 0 |
--seed SEED | 操作的随机种子 | 0 |
--swap-space SWAP_SPACE | 每个GPU的CPU交换空间大小(GiB) | 4 |
--gpu-memory-utilization GPU_MEMORY_UTILIZATION | 用于模型执行器的GPU内存分数,范围0到1 | 0.9 |
--num-gpu-blocks-override NUM_GPU_BLOCKS_OVERRIDE | 忽略GPU分析结果并使用指定数量的GPU块,用于测试抢占 | 无 |
--max-num-batched-tokens MAX_NUM_BATCHED_TOKENS | 每次迭代中批量令牌的最大数量 | 无 |
--max-num-seqs MAX_NUM_SEQS | 每次迭代中序列的最大数量 | 256 |
--max-logprobs MAX_LOGPROBS | SamplingParams中指定的返回logprobs的最大数量 | 20 |
--disable-log-stats | 禁用日志统计 | 无 |
--quantization, -q {aqlm,awq,deepspeedfp,fp8,marlin,gptq_marlin_24,gptq_marlin,gptq,squeezellm,compressed-tensors,bitsandbytes, None} | 权重量化的方法,如果为None,则检查模型配置文件中的quantization_config属性,如果也为None,则假设模型权重未量化,并使用dtype确定权重的数据类型 | None |
--rope-scaling ROPE_SCALING | RoPE缩放配置,JSON格式,例如{“type”:“dynamic”,“factor”:2.0} | 无 |
--rope-theta ROPE_THETA | RoPE theta,与rope_scaling一起使用,在某些情况下,更改RoPE theta可以提高缩放模型的性能 | 无 |
--enforce-eager | 始终使用急切模式PyTorch,如果为False,则在混合模式下使用急切模式和CUDA图以获得最大性能和灵活性 | 无 |
--max-context-len-to-capture MAX_CONTEXT_LEN_TO_CAPTURE | CUDA图覆盖的最大上下文长度,当序列的上下文长度大于这个值时,回退到急切模式 | 已弃用 |
--max-seq-len-to-capture MAX_SEQ_LEN_TO_CAPTURE | CUDA图覆盖的最大序列长度,当序列的上下文长度大于这个值时,回退到急切模式 | 8192 |
--disable-custom-all-reduce | 查看ParallelConfig | 无 |
--tokenizer-pool-size TOKENIZER_POOL_SIZE | 用于异步分词的分词器池的大小,如果为0,则使用同步分词 | 0 |
--tokenizer-pool-type TOKENIZER_POOL_TYPE | 用于异步分词的分词器池的类型,如果tokenizer_pool_size为0则忽略 | “ray” |
--tokenizer-pool-extra-config TOKENIZER_POOL_EXTRA_CONFIG | 分词器池的额外配置,应为JSON字符串并解析为字典,如果tokenizer_pool_size为0则忽略 | 无 |
--enable-lora | 如果为True,启用LoRA适配器处理 | 无 |
--max-loras MAX_LORAS | 单个批次中LoRAs的最大数量 | 1 |
--max-lora-rank MAX_LORA_RANK | 最大LoRA秩 | 16 |
--lora-extra-vocab-size LORA_EXTRA_VOCAB_SIZE | LoRA适配器中可以存在的额外词汇表的最大大小(添加到基础模型词汇表中) | 256 |
--lora-dtype {auto,float16,bfloat16,float32} | LoRA的数据类型,如果auto,则默认为基础模型的数据类型 | “auto” |
--long-lora-scaling-factors LONG_LORA_SCALING_FACTORS | 指定多个缩放因子(可以与基础模型的缩放因子不同 - 例如Long LoRA),允许同时使用那些缩放因子训练的多个LoRA适配器 | 无 |
--max-cpu-loras MAX_CPU_LORAS | 在CPU内存中存储的LoRAs的最大数量,必须大于等于max_num_seqs,默认为max_num_seqs | 无 |
--fully-sharded-loras | 默认情况下,只有一半的LoRA计算与张量并行分片,启用此选项将使用完全分片层,在高序列长度、最大秩或张量并行大小时,这可能更快 | 无 |
--device {auto,cuda,neuron,cpu,tpu,xpu} | vLLM执行的设备类型 | “auto” |
--image-input-type {pixel_values,image_features} | 传递给vLLM的图像输入类型 | 无 |
--image-token-id IMAGE_TOKEN_ID | 图像标记的输入ID | 无 |
--image-input-shape IMAGE_INPUT_SHAPE | 给定输入类型的最大图像输入形状(对内存占用最不利),仅用于vLLM的profile_run | 无 |
--image-feature-size IMAGE_FEATURE_SIZE | 沿上下文维度的图像特征大小 | 无 |
--image-processor IMAGE_PROCESSOR | 使用的Hugging Face图像处理器的名称或路径,如果未指定则使用模型名称或路径 | 无 |
--image-processor-revision IMAGE_PROCESSOR_REVISION | Hugging Face图像处理器版本的修订版本,可以是分支名称、标签名称或提交ID | 使用默认版本 |
--disable-image-processor | 禁用图像处理器的使用,即使模型在Hugging Face上定义了图像处理器 | 无 |
--scheduler-delay-factor SCHEDULER_DELAY_FACTOR | 在调度下一个提示之前应用延迟(延迟因子乘以上一个提示的延迟) | 0.0 |
--enable-chunked-prefill | 如果设置,基于max_num_batched_tokens 分块预填充请求 | 无 |
--speculative-model SPECULATIVE_MODEL | 用于推测性解码的草稿模型的名称 | 无 |
--num-speculative-tokens NUM_SPECULATIVE_TOKENS | 从草稿模型中采样的推测性令牌的数量 | 无 |
--speculative-max-model-len SPECULATIVE_MAX_MODEL_LEN | 草稿模型支持的最大序列长度,超过此长度的序列将跳过推测 | 无 |
--speculative-disable-by-batch-size SPECULATIVE_DISABLE_BY_BATCH_SIZE | 如果排队请求的数量大于此值,则禁用新传入请求的推测性解码 | 无 |
--ngram-prompt-lookup-max NGRAM_PROMPT_LOOKUP_MAX | 推测性解码中ngram提示查找的最大窗口大小 | 无 |
--ngram-prompt-lookup-min NGRAM_PROMPT_LOOKUP_MIN | 推测性解码中ngram提示查找的最小窗口大小 | 无 |
--model-loader-extra-config MODEL_LOADER_EXTRA_CONFIG | 模型加载器的额外配置,将传递给选择的load_format 对应的模型加载器,应为JSON字符串并解析为字典 | 无 |
--preemption-mode PREEMPTION_MODE | 如果为’recompute’,则引擎通过块交换执行抢占;如果为’swap’,则引擎通过块交换执行抢占 | 无 |
--served-model-name SERVED_MODEL_NAME [SERVED_MODEL_NAME ...] | API中使用的模型名称,如果提供了多个名称,服务器将响应提供的任何名称 | 无 |
--qlora-adapter-name-or-path QLORA_ADAPTER_NAME_OR_PATH | QLoRA适配器的名称或路径 | 无 |
--otlp-traces-endpoint OTLP_TRACES_ENDPOINT | OpenTelemetry跟踪将被发送到的目标URL | 无 |
--engine-use-ray | 使用Ray在单独的进程中启动LLM引擎作为服务器进程 | 无 |
--disable-log-requests | 禁用日志请求 | 无 |
--max-log-len | 日志中打印的提示字符或提示ID号的最大数量 | 无限制 |