1. vLLM 的支持情况
-
.safetensors 格式
vLLM 原生支持通过--load-format
参数加载.safetensors
格式的模型权重。用户可通过设置--load-format safetensors
直接加载此类文件,例如在部署时使用vllm serve
命令,并指定模型路径。vLLM 默认优先尝试加载.safetensors
格式(若存在),否则回退到 PyTorch 的.bin
格式。 -
.gguf 格式
vLLM 从 0.6.2 版本开始支持.gguf
格式的模型加载。需通过--load-format gguf
显式指定格式,并搭配对应的量化参数(如Q4_K_M
)。例如,在 AMD GPU 上使用 ROCm 后端时,vLLM 能高效运行量化后的.gguf
模型,且性能优于部分竞品。
2. Xinference 的支持情况
-
.safetensors 格式
Xinference 通过集成 Hugging Face 生态,默认支持.safetensors
格式的模型加载(尤其是 Transformer 架构的模型)。例如,用户可直接从 Hugging Face 或 ModelScope 下载.safetensors
模型,通过xinference launch
命令部署。 -
.gguf 格式
Xinference 通过集成 llama.cpp 引擎支持.gguf
格式。需在安装时启用llama.cpp
后端(如设置CMAKE_ARGS
适配硬件),并通过Modelfile
指定.gguf
文件路径。例如,在 CPU 或 Apple M 芯片上运行时,Xinference 可通过内存映射(mmap)高效加载量化后的.gguf
模型。
3. Ollama 的支持情况
-
.safetensors 格式
Ollama 支持通过 Safetensors 适配器 微调后的模型导入。需在Modelfile
中使用ADAPTER
指令指向包含.safetensors
文件的目录,例如将 Lora 微调后的适配器与基础模型结合使用。但需确保适配器与基础模型架构(如 Llama、Mistral)兼容。 -
.gguf 格式
Ollama 原生支持.gguf
格式的模型部署。用户可直接在Modelfile
中通过FROM
指令指定.gguf
文件路径(例如FROM ./model.gguf
),并利用ollama create
命令注册模型。此外,Ollama 支持对 FP16/FP32 模型自动量化为.gguf
(如Q4_K_M
),优化显存占用。
总结
框架/格式 | .safetensors | .gguf |
---|---|---|
vLLM | 原生支持(需指定 --load-format ) | 支持(需显式指定格式及量化参数) |
Xinference | 通过 Hugging Face 默认支持 | 通过 llama.cpp 引擎支持 |
Ollama | 支持适配器导入(非原生权重) | 原生支持(直接加载或自动量化生成) |
适用场景建议:
- vLLM:适合需要高性能推理且依赖 GPU 资源的场景(如生产环境 API 服务)。
- Xinference:适合多模态模型部署及 CPU/边缘设备上的灵活推理。
- Ollama:适合本地快速部署量化模型,尤其适合个人开发者或资源受限环境。