VLLM参数解释-中文表格形式

废话不说,以下是vLLM引擎参数的完整表格形式:

参数说明默认值
-m vllm.entrypoints.openai.api_server使用vLLM的OpenAI API服务器入口
-h显示帮助信息
--model MODELHugging Face模型的名称或路径“facebook/opt-125m”
--tokenizer TOKENIZERHugging Face分词器的名称或路径,如果未指定则使用模型名称或路径
--skip-tokenizer-init跳过分词器和反分词器的初始化
--revision REVISION特定模型版本的使用,可以是分支名称、标签名称或提交ID使用默认版本
--code-revision CODE_REVISION模型代码的特定修订版本,可以是分支名称、标签名称或提交ID使用默认版本
--tokenizer-revision TOKENIZER_REVISION分词器的修订版本,可以是分支名称、标签名称或提交ID使用默认版本
--tokenizer-mode {auto,slow}分词器模式,"auto"使用快速分词器(如果可用),"slow"始终使用慢速分词器“auto”
--trust-remote-code信任来自Hugging Face的远程代码
--download-dir DOWNLOAD_DIR权重下载和加载的目录,默认为Hugging Face的默认缓存目录
--load-format {auto,pt,safetensors,npcache,dummy,tensorizer,bitsandbytes}模型权重加载的格式“auto”
--dtype {auto,half,float16,bfloat16,float,float32}模型权重和激活的数据类型“auto”
--kv-cache-dtype {auto,fp8,fp8_e5m2,fp8_e4m3}KV缓存存储的数据类型,如果"auto",将使用模型数据类型“auto”
--quantization-param-path QUANTIZATION_PARAM_PATH包含KV缓存缩放因子的JSON文件路径
--max-model-len MAX_MODEL_LEN模型上下文长度,如果未指定,将自动从模型配置中推导
--guided-decoding-backend {outlines,lm-format-enforcer}用于引导解码的引擎,支持outlines-dev/outlines和noamgat/lm-format-enforcer“outlines”
--distributed-executor-backend {ray,mp}分布式服务的后端,多GPU时自动设置为"ray"(如果安装)或"mp"(多进程)
--worker-use-ray已弃用,请使用--distributed-executor-backend=ray
--pipeline-parallel-size, -pp流水线阶段的数量1
--tensor-parallel-size, -tp张量并行副本的数量1
--max-parallel-loading-workers MAX_PARALLEL_LOADING_WORKERS并行加载模型时使用的多个批次,以避免使用张量并行和大型模型时的RAM OOM
--ray-workers-use-nsight如果指定,使用nsight分析Ray工作进程
--block-size {8,16,32}连续令牌块的令牌块大小16
--enable-prefix-caching启用自动前缀缓存
--disable-sliding-window禁用滑动窗口,限制为滑动窗口大小
--use-v2-block-manager使用BlockSpaceManagerV2
--num-lookahead-slots NUM_LOOKAHEAD_SLOTS推测性解码的实验性调度配置,将来将被推测性配置替代0
--seed SEED操作的随机种子0
--swap-space SWAP_SPACE每个GPU的CPU交换空间大小(GiB)4
--gpu-memory-utilization GPU_MEMORY_UTILIZATION用于模型执行器的GPU内存分数,范围0到10.9
--num-gpu-blocks-override NUM_GPU_BLOCKS_OVERRIDE忽略GPU分析结果并使用指定数量的GPU块,用于测试抢占
--max-num-batched-tokens MAX_NUM_BATCHED_TOKENS每次迭代中批量令牌的最大数量
--max-num-seqs MAX_NUM_SEQS每次迭代中序列的最大数量256
--max-logprobs MAX_LOGPROBSSamplingParams中指定的返回logprobs的最大数量20
--disable-log-stats禁用日志统计
--quantization, -q {aqlm,awq,deepspeedfp,fp8,marlin,gptq_marlin_24,gptq_marlin,gptq,squeezellm,compressed-tensors,bitsandbytes, None}权重量化的方法,如果为None,则检查模型配置文件中的quantization_config属性,如果也为None,则假设模型权重未量化,并使用dtype确定权重的数据类型None
--rope-scaling ROPE_SCALINGRoPE缩放配置,JSON格式,例如{“type”:“dynamic”,“factor”:2.0}
--rope-theta ROPE_THETARoPE theta,与rope_scaling一起使用,在某些情况下,更改RoPE theta可以提高缩放模型的性能
--enforce-eager始终使用急切模式PyTorch,如果为False,则在混合模式下使用急切模式和CUDA图以获得最大性能和灵活性
--max-context-len-to-capture MAX_CONTEXT_LEN_TO_CAPTURECUDA图覆盖的最大上下文长度,当序列的上下文长度大于这个值时,回退到急切模式已弃用
--max-seq-len-to-capture MAX_SEQ_LEN_TO_CAPTURECUDA图覆盖的最大序列长度,当序列的上下文长度大于这个值时,回退到急切模式8192
--disable-custom-all-reduce查看ParallelConfig
--tokenizer-pool-size TOKENIZER_POOL_SIZE用于异步分词的分词器池的大小,如果为0,则使用同步分词0
--tokenizer-pool-type TOKENIZER_POOL_TYPE用于异步分词的分词器池的类型,如果tokenizer_pool_size为0则忽略“ray”
--tokenizer-pool-extra-config TOKENIZER_POOL_EXTRA_CONFIG分词器池的额外配置,应为JSON字符串并解析为字典,如果tokenizer_pool_size为0则忽略
--enable-lora如果为True,启用LoRA适配器处理
--max-loras MAX_LORAS单个批次中LoRAs的最大数量1
--max-lora-rank MAX_LORA_RANK最大LoRA秩16
--lora-extra-vocab-size LORA_EXTRA_VOCAB_SIZELoRA适配器中可以存在的额外词汇表的最大大小(添加到基础模型词汇表中)256
--lora-dtype {auto,float16,bfloat16,float32}LoRA的数据类型,如果auto,则默认为基础模型的数据类型“auto”
--long-lora-scaling-factors LONG_LORA_SCALING_FACTORS指定多个缩放因子(可以与基础模型的缩放因子不同 - 例如Long LoRA),允许同时使用那些缩放因子训练的多个LoRA适配器
--max-cpu-loras MAX_CPU_LORAS在CPU内存中存储的LoRAs的最大数量,必须大于等于max_num_seqs,默认为max_num_seqs
--fully-sharded-loras默认情况下,只有一半的LoRA计算与张量并行分片,启用此选项将使用完全分片层,在高序列长度、最大秩或张量并行大小时,这可能更快
--device {auto,cuda,neuron,cpu,tpu,xpu}vLLM执行的设备类型“auto”
--image-input-type {pixel_values,image_features}传递给vLLM的图像输入类型
--image-token-id IMAGE_TOKEN_ID图像标记的输入ID
--image-input-shape IMAGE_INPUT_SHAPE给定输入类型的最大图像输入形状(对内存占用最不利),仅用于vLLM的profile_run
--image-feature-size IMAGE_FEATURE_SIZE沿上下文维度的图像特征大小
--image-processor IMAGE_PROCESSOR使用的Hugging Face图像处理器的名称或路径,如果未指定则使用模型名称或路径
--image-processor-revision IMAGE_PROCESSOR_REVISIONHugging Face图像处理器版本的修订版本,可以是分支名称、标签名称或提交ID使用默认版本
--disable-image-processor禁用图像处理器的使用,即使模型在Hugging Face上定义了图像处理器
--scheduler-delay-factor SCHEDULER_DELAY_FACTOR在调度下一个提示之前应用延迟(延迟因子乘以上一个提示的延迟)0.0
--enable-chunked-prefill如果设置,基于max_num_batched_tokens分块预填充请求
--speculative-model SPECULATIVE_MODEL用于推测性解码的草稿模型的名称
--num-speculative-tokens NUM_SPECULATIVE_TOKENS从草稿模型中采样的推测性令牌的数量
--speculative-max-model-len SPECULATIVE_MAX_MODEL_LEN草稿模型支持的最大序列长度,超过此长度的序列将跳过推测
--speculative-disable-by-batch-size SPECULATIVE_DISABLE_BY_BATCH_SIZE如果排队请求的数量大于此值,则禁用新传入请求的推测性解码
--ngram-prompt-lookup-max NGRAM_PROMPT_LOOKUP_MAX推测性解码中ngram提示查找的最大窗口大小
--ngram-prompt-lookup-min NGRAM_PROMPT_LOOKUP_MIN推测性解码中ngram提示查找的最小窗口大小
--model-loader-extra-config MODEL_LOADER_EXTRA_CONFIG模型加载器的额外配置,将传递给选择的load_format对应的模型加载器,应为JSON字符串并解析为字典
--preemption-mode PREEMPTION_MODE如果为’recompute’,则引擎通过块交换执行抢占;如果为’swap’,则引擎通过块交换执行抢占
--served-model-name SERVED_MODEL_NAME [SERVED_MODEL_NAME ...]API中使用的模型名称,如果提供了多个名称,服务器将响应提供的任何名称
--qlora-adapter-name-or-path QLORA_ADAPTER_NAME_OR_PATHQLoRA适配器的名称或路径
--otlp-traces-endpoint OTLP_TRACES_ENDPOINTOpenTelemetry跟踪将被发送到的目标URL
--engine-use-ray使用Ray在单独的进程中启动LLM引擎作为服务器进程
--disable-log-requests禁用日志请求
--max-log-len日志中打印的提示字符或提示ID号的最大数量无限制
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值