vLLM支持跨多种任务的生成式和池化模型。如果一个模型支持多个任务,您可以通过–task参数来设置任务。
对于每个任务,我们列出了已在vLLM中实现的模型架构。每个架构旁边,我们列出了一些使用该架构的流行模型。
1. 加载模型
1.1 HuggingFace 模型库
默认情况下,vLLM 会从 HuggingFace (HF) Hub 加载模型。
要确定某个模型是否受支持,您可以检查 HF 仓库中的 config.json
文件。如果 “architectures” 字段包含以下列出的模型架构,那么理论上该模型应该是受支持的。
提示
检查您的模型在运行时是否真正受支持的最简单方法是运行以下程序:
from vllm import LLM
# For generative models (task=generate) only
llm = LLM