VLLM参数解释-中文表格形式

最新推荐文章于 2025-05-18 16:15:08 发布

一只特蕉

最新推荐文章于 2025-05-18 16:15:08 发布

阅读量1.3w

点赞数 12

分类专栏：大语言模型文章标签：人工智能 vllm

原文链接：https://docs.vllm.ai/en/v0.4.3/models/engine_args.html#engine-arguments

版权

大语言模型专栏收录该内容

17 篇文章

订阅专栏

废话不说，以下是vLLM引擎参数的完整表格形式：

参数	说明	默认值
`-m vllm.entrypoints.openai.api_server`	使用vLLM的OpenAI API服务器入口	无
`-h`	显示帮助信息	无
`--model MODEL`	Hugging Face模型的名称或路径	“facebook/opt-125m”
`--tokenizer TOKENIZER`	Hugging Face分词器的名称或路径，如果未指定则使用模型名称或路径	无
`--skip-tokenizer-init`	跳过分词器和反分词器的初始化	无
`--revision REVISION`	特定模型版本的使用，可以是分支名称、标签名称或提交ID	使用默认版本
`--code-revision CODE_REVISION`	模型代码的特定修订版本，可以是分支名称、标签名称或提交ID	使用默认版本
`--tokenizer-revision TOKENIZER_REVISION`	分词器的修订版本，可以是分支名称、标签名称或提交ID	使用默认版本
`--tokenizer-mode {auto,slow}`	分词器模式，"auto"使用快速分词器（如果可用），"slow"始终使用慢速分词器	“auto”
`--trust-remote-code`	信任来自Hugging Face的远程代码	无
`--download-dir DOWNLOAD_DIR`	权重下载和加载的目录，默认为Hugging Face的默认缓存目录	无
`--load-format {auto,pt,safetensors,npcache,dummy,tensorizer,bitsandbytes}`	模型权重加载的格式	“auto”
`--dtype {auto,half,float16,bfloat16,float,float32}`	模型权重和激活的数据类型	“auto”
`--kv-cache-dtype {auto,fp8,fp8_e5m2,fp8_e4m3}`	KV缓存存储的数据类型，如果"auto"，将使用模型数据类型	“auto”
`--quantization-param-path QUANTIZATION_PARAM_PATH`	包含KV缓存缩放因子的JSON文件路径	无
`--max-model-len MAX_MODEL_LEN`	模型上下文长度，如果未指定，将自动从模型配置中推导	无
`--guided-decoding-backend {outlines,lm-format-enforcer}`	用于引导解码的引擎，支持outlines-dev/outlines和noamgat/lm-format-enforcer	“outlines”
`--distributed-executor-backend {ray,mp}`	分布式服务的后端，多GPU时自动设置为"ray"（如果安装）或"mp"（多进程）	无
`--worker-use-ray`	已弃用，请使用`--distributed-executor-backend=ray`	无
`--pipeline-parallel-size, -pp`	流水线阶段的数量	1
`--tensor-parallel-size, -tp`	张量并行副本的数量	1
`--max-parallel-loading-workers MAX_PARALLEL_LOADING_WORKERS`	并行加载模型时使用的多个批次，以避免使用张量并行和大型模型时的RAM OOM	无
`--ray-workers-use-nsight`	如果指定，使用nsight分析Ray工作进程	无
`--block-size {8,16,32}`	连续令牌块的令牌块大小	16
`--enable-prefix-caching`	启用自动前缀缓存	无
`--disable-sliding-window`	禁用滑动窗口，限制为滑动窗口大小	无
`--use-v2-block-manager`	使用BlockSpaceManagerV2	无
`--num-lookahead-slots NUM_LOOKAHEAD_SLOTS`	推测性解码的实验性调度配置，将来将被推测性配置替代	0
`--seed SEED`	操作的随机种子	0
`--swap-space SWAP_SPACE`	每个GPU的CPU交换空间大小（GiB）	4
`--gpu-memory-utilization GPU_MEMORY_UTILIZATION`	用于模型执行器的GPU内存分数，范围0到1	0.9
`--num-gpu-blocks-override NUM_GPU_BLOCKS_OVERRIDE`	忽略GPU分析结果并使用指定数量的GPU块，用于测试抢占	无
`--max-num-batched-tokens MAX_NUM_BATCHED_TOKENS`	每次迭代中批量令牌的最大数量	无
`--max-num-seqs MAX_NUM_SEQS`	每次迭代中序列的最大数量	256
`--max-logprobs MAX_LOGPROBS`	SamplingParams中指定的返回logprobs的最大数量	20
`--disable-log-stats`	禁用日志统计	无
`--quantization, -q {aqlm,awq,deepspeedfp,fp8,marlin,gptq_marlin_24,gptq_marlin,gptq,squeezellm,compressed-tensors,bitsandbytes, None}`	权重量化的方法，如果为None，则检查模型配置文件中的quantization_config属性，如果也为None，则假设模型权重未量化，并使用dtype确定权重的数据类型	None
`--rope-scaling ROPE_SCALING`	RoPE缩放配置，JSON格式，例如{“type”:“dynamic”,“factor”:2.0}	无
`--rope-theta ROPE_THETA`	RoPE theta，与rope_scaling一起使用，在某些情况下，更改RoPE theta可以提高缩放模型的性能	无
`--enforce-eager`	始终使用急切模式PyTorch，如果为False，则在混合模式下使用急切模式和CUDA图以获得最大性能和灵活性	无
`--max-context-len-to-capture MAX_CONTEXT_LEN_TO_CAPTURE`	CUDA图覆盖的最大上下文长度，当序列的上下文长度大于这个值时，回退到急切模式	已弃用
`--max-seq-len-to-capture MAX_SEQ_LEN_TO_CAPTURE`	CUDA图覆盖的最大序列长度，当序列的上下文长度大于这个值时，回退到急切模式	8192
`--disable-custom-all-reduce`	查看ParallelConfig	无
`--tokenizer-pool-size TOKENIZER_POOL_SIZE`	用于异步分词的分词器池的大小，如果为0，则使用同步分词	0
`--tokenizer-pool-type TOKENIZER_POOL_TYPE`	用于异步分词的分词器池的类型，如果tokenizer_pool_size为0则忽略	“ray”
`--tokenizer-pool-extra-config TOKENIZER_POOL_EXTRA_CONFIG`	分词器池的额外配置，应为JSON字符串并解析为字典，如果tokenizer_pool_size为0则忽略	无
`--enable-lora`	如果为True，启用LoRA适配器处理	无
`--max-loras MAX_LORAS`	单个批次中LoRAs的最大数量	1
`--max-lora-rank MAX_LORA_RANK`	最大LoRA秩	16
`--lora-extra-vocab-size LORA_EXTRA_VOCAB_SIZE`	LoRA适配器中可以存在的额外词汇表的最大大小（添加到基础模型词汇表中）	256
`--lora-dtype {auto,float16,bfloat16,float32}`	LoRA的数据类型，如果auto，则默认为基础模型的数据类型	“auto”
`--long-lora-scaling-factors LONG_LORA_SCALING_FACTORS`	指定多个缩放因子（可以与基础模型的缩放因子不同 - 例如Long LoRA），允许同时使用那些缩放因子训练的多个LoRA适配器	无
`--max-cpu-loras MAX_CPU_LORAS`	在CPU内存中存储的LoRAs的最大数量，必须大于等于max_num_seqs，默认为max_num_seqs	无
`--fully-sharded-loras`	默认情况下，只有一半的LoRA计算与张量并行分片，启用此选项将使用完全分片层，在高序列长度、最大秩或张量并行大小时，这可能更快	无
`--device {auto,cuda,neuron,cpu,tpu,xpu}`	vLLM执行的设备类型	“auto”
`--image-input-type {pixel_values,image_features}`	传递给vLLM的图像输入类型	无
`--image-token-id IMAGE_TOKEN_ID`	图像标记的输入ID	无
`--image-input-shape IMAGE_INPUT_SHAPE`	给定输入类型的最大图像输入形状（对内存占用最不利），仅用于vLLM的profile_run	无
`--image-feature-size IMAGE_FEATURE_SIZE`	沿上下文维度的图像特征大小	无
`--image-processor IMAGE_PROCESSOR`	使用的Hugging Face图像处理器的名称或路径，如果未指定则使用模型名称或路径	无
`--image-processor-revision IMAGE_PROCESSOR_REVISION`	Hugging Face图像处理器版本的修订版本，可以是分支名称、标签名称或提交ID	使用默认版本
`--disable-image-processor`	禁用图像处理器的使用，即使模型在Hugging Face上定义了图像处理器	无
`--scheduler-delay-factor SCHEDULER_DELAY_FACTOR`	在调度下一个提示之前应用延迟（延迟因子乘以上一个提示的延迟）	0.0
`--enable-chunked-prefill`	如果设置，基于`max_num_batched_tokens`分块预填充请求	无
`--speculative-model SPECULATIVE_MODEL`	用于推测性解码的草稿模型的名称	无
`--num-speculative-tokens NUM_SPECULATIVE_TOKENS`	从草稿模型中采样的推测性令牌的数量	无
`--speculative-max-model-len SPECULATIVE_MAX_MODEL_LEN`	草稿模型支持的最大序列长度，超过此长度的序列将跳过推测	无
`--speculative-disable-by-batch-size SPECULATIVE_DISABLE_BY_BATCH_SIZE`	如果排队请求的数量大于此值，则禁用新传入请求的推测性解码	无
`--ngram-prompt-lookup-max NGRAM_PROMPT_LOOKUP_MAX`	推测性解码中ngram提示查找的最大窗口大小	无
`--ngram-prompt-lookup-min NGRAM_PROMPT_LOOKUP_MIN`	推测性解码中ngram提示查找的最小窗口大小	无
`--model-loader-extra-config MODEL_LOADER_EXTRA_CONFIG`	模型加载器的额外配置，将传递给选择的`load_format`对应的模型加载器，应为JSON字符串并解析为字典	无
`--preemption-mode PREEMPTION_MODE`	如果为’recompute’，则引擎通过块交换执行抢占；如果为’swap’，则引擎通过块交换执行抢占	无
`--served-model-name SERVED_MODEL_NAME [SERVED_MODEL_NAME ...]`	API中使用的模型名称，如果提供了多个名称，服务器将响应提供的任何名称	无
`--qlora-adapter-name-or-path QLORA_ADAPTER_NAME_OR_PATH`	QLoRA适配器的名称或路径	无
`--otlp-traces-endpoint OTLP_TRACES_ENDPOINT`	OpenTelemetry跟踪将被发送到的目标URL	无
`--engine-use-ray`	使用Ray在单独的进程中启动LLM引擎作为服务器进程	无
`--disable-log-requests`	禁用日志请求	无
`--max-log-len`	日志中打印的提示字符或提示ID号的最大数量	无限制