简介
项目主页:https://github.com/xorbitsai/inference
Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。
支持主流的transformers、vllm、llama.cpp等模型引擎,支持使用Web UI选择推理引擎、量化、GPU数量/编号、并发限制、下载源等
安装
创建一个干净的环境
conda create -n llm python=