使用Xinference进行LLM推理的实战指南

最新推荐文章于 2025-06-11 09:27:42 发布

PPIG564

最新推荐文章于 2025-06-11 09:27:42 发布

阅读量575

点赞数 4

文章标签： python

本文链接：https://blog.csdn.net/Shell726/article/details/145314591

版权

Xinference是一个功能强大且多用途的库，专为本地设备（甚至是笔记本电脑）提供大规模语言模型(LLM)、语音识别模型和多模态模型服务。它支持多种模型，这些模型与GGML兼容，如chatglm、baichuan、whisper、vicuna、orca等。本文将演示如何结合LangChain来使用Xinference。

技术背景介绍

随着AI模型的日益复杂和强大，如何在本地设备甚至分布式环境中高效地部署和调用这些模型成为一个重要的技术挑战。Xinference提供了一种解决方案，它允许开发者在本地或集群环境中部署和使用多种先进的AI模型。

核心原理解析

Xinference通过将模型服务化，使开发者能够方便地启动、调用和终止模型。在本地部署时，它通过命令行工具启动服务；在分布式环境中，则通过supervisor和worker的模式进行管理。

代码实现演示

安装Xinference

首先，通过PyPI安装Xinference：

%pip install --upgrade --quiet "xinference[all]"

部署Xinference

本地部署

运行以下命令即可在本地启动Xinference：

!xinference

分布式部署

启动Xinference主管程序：

!xinference-supervisor -p 9997

在每个服务器上启动Xinference工作进程：

!xinference-worker

使用Xinference与LangChain

启动模型：

!xinference launch -n vicuna-v1.3 -f ggmlv3 -q q4_0

记录返回的模型UID（例如：7167b2b0-2a04-11ee-83f0-d29396a3f064），用于后续调用。

调用模型

from langchain_community.llms import Xinference

# 使用LangChain进行模型推理
llm = Xinference(
    server_url="http://0.0.0.0:9997",  # 本地服务地址
    model_uid="7167b2b0-2a04-11ee-83f0-d29396a3f064"  # 模型UID
)

# 生成文本
response = llm(
    prompt="Q: where can we visit in the capital of France? A:",
    generate_config={"max_tokens": 1024, "stream": True},
)

print(response)

与LLMChain集成

from langchain.chains import LLMChain
from langchain_core.prompts import PromptTemplate

# 定义提示模板
template = "Where can we visit in the capital of {country}?"

prompt = PromptTemplate.from_template(template)

# 创建并运行LLMChain
llm_chain = LLMChain(prompt=prompt, llm=llm)

generated = llm_chain.run(country="France")
print(generated)

终止模型

当不再使用模型时，可以通过以下命令安全地终止它：

!xinference terminate --model-uid "7167b2b0-2a04-11ee-83f0-d29396a3f064"

应用场景分析

个人开发者：在本地设备上快速部署和测试各种LLM模型。
企业应用：在分布式环境中高效部署AI服务，以支持大规模并发请求。

实践建议

资源配置：根据设备的硬件资源选择合适的模型。
分布式部署：确保网络环境的稳定性，以优化分布式部署的性能。
安全管理：妥善管理API密钥和模型UID，防止意外泄露。

如果遇到问题欢迎在评论区交流。
—END—