引言
Xinference 是一个强大且多功能的库,旨在为大语言模型(LLMs)、语音识别模型和多模态模型提供服务。其兼容众多支持 GGML 的模型,如 chatglm、baichuan、whisper 等等。本篇文章将向您展示如何使用 Xinference 与 LangChain 结合进行推理。
主要内容
安装
首先,我们需要通过 PyPI 安装 Xinference:
%pip install --upgrade --quiet "xinference[all]"
部署Xinference
本地部署
要在本地部署 Xinference,可以直接运行:
!xinference
分布式部署
如果需要在集群中部署,可以使用 xinference-supervisor
启动 Xinference 主管程序。您可以使用 -p
指定端口,-H
指定主机,默认端口是 9997。
然后,在每个服务器上使用 xinference-worker
启动 Xinference 工作程序。有关更多