引擎参数
以下是对vLLM引擎参数的详细说明:
--model <模型名称或路径>
要使用的huggingface模型的名称或路径。
--tokenizer <tokenizer名称或路径>
要使用的huggingface分词器的名称或路径。
--revision <修订版本>
要使用的特定模型版本。可以是分支名称、标签名称或提交ID。如果不指定,则使用默认版本。
--tokenizer-revision <修订版本>
要使用的特定分词器版本。可以是分支名称、标签名称或提交ID。如果不指定,则使用默认版本。
--tokenizer-mode {auto,slow}
分词器模式。
-
“auto” 将在可用时使用快速分词器。
-
“slow” 始终使用慢速分词器。
本文详细介绍了vLLM引擎的参数设置,包括模型名称、tokenizer选择、修订版本、分词器模式、权重加载格式、数据类型、上下文长度、流水线阶段、张量并行副本、工作进程数、种子设置、内存比例等关键配置,帮助用户理解和优化模型推理性能。
订阅专栏 解锁全文
1419

被折叠的 条评论
为什么被折叠?



