[如何在本地和分布式环境中使用Xinference进行多模态模型推理]

最新推荐文章于 2025-03-24 10:38:20 发布

akhfuiigabv

最新推荐文章于 2025-03-24 10:38:20 发布

阅读量795

点赞数 5

文章标签：分布式 python

本文链接：https://blog.csdn.net/akhfuiigabv/article/details/143004885

版权

引言

Xinference 是一个强大且多功能的库，旨在为大语言模型（LLMs）、语音识别模型和多模态模型提供服务。其兼容众多支持 GGML 的模型，如 chatglm、baichuan、whisper 等等。本篇文章将向您展示如何使用 Xinference 与 LangChain 结合进行推理。

主要内容

安装

首先，我们需要通过 PyPI 安装 Xinference：

%pip install --upgrade --quiet "xinference[all]"

部署Xinference

本地部署

要在本地部署 Xinference，可以直接运行：

!xinference

分布式部署

如果需要在集群中部署，可以使用 xinference-supervisor 启动 Xinference 主管程序。您可以使用 -p 指定端口，-H 指定主机，默认端口是 9997。

然后，在每个服务器上使用 xinference-worker 启动 Xinference 工作程序。有关更多

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

akhfuiigabv

关注关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

丨汀、的博客

05-27

5326

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

Xinference：深度学习模型推理与优化指南

AngelCryToo的专栏

09-24

2689

Xinference 是一个专注于高效深度学习模型推理的开源工具，旨在提升推理速度和性能。它支持多种硬件后端，包括 CPU、GPU 和 FPGA，适用于不同的部署环境。Xinference 是一个强大的工具，专注于深度学习模型的推理。它与 LLaMA-Factory 在功能和应用场景上有明显区别，开发者可以根据需求选择合适的工具。希望这些信息对你有所帮助！如有其他问题，请随时询问。

参与评论您还未登录，请先登录后发表或查看评论

使用Xinference与LangChain构建多模态AI应用的终极指南

bhawfgrcbtwny的博客

10-01

539

Xinference提供了一种方便高效的方法来部署和服务多种模型，特别适用于需要在本地环境中运行复杂AI应用的开发者。Xinference LLM示例Xinference Embeddings示例。

Xinference 本地运行大模型

liuqianglong_liu的博客

09-12

7547

本文介绍了如何使用 Docker 部署 Xinference 推理框架，并演示了如何启动和运行多种大模型，包括大语言模型、图像生成模型和多模态模型。还讲解了嵌入和重排模型的启动方法，为后续 Dify 调用嵌入和重排模型做为铺垫。

Xinference安装、使用详细笔记

最新发布

guoqingru0311的博客

03-24

1815

Xinference安装、使用详细笔记

【xinference】（7）：在autodl上，使用xinference一次部署embedding，rerank，qwen多个大模型，兼容openai的接口协议，超级棒的方案

freewebsys的专栏

04-02

6571

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。【xinference】（7）：在autodl上，使用xinference一次部署embedding，rerank，qwen多个大模型，兼容openai的接口协。在autodl上下载项目主要是安装。启动访问之后可以进行安装各种软件了。启动Xinference服务。

Xorbits Inference（Xinference）：一款性能强大且功能全面的大模型部署与分布式推理框架

积跬步，至千里。

09-13

3668

Xinference是一个性能强大且功能全面的分布式推理框架。可用于大语言模型，语音识别模型，多模态模型等各种模型的推理。通过Xinference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。

【大模型】使用 Xinference 部署本地模型，从GPU服务器到本地知识库搭建Dify【LLM大语言模型（glm-4-9b-chat）、Rerank 模型、Embedding（向量）模型】

起而行动，方能平定心中的惶恐

09-04

1万+

本文会用到博主写的一些线上脚本，如果搭建者时纯内网的话，可能需要手动压缩镜像，然后解压镜像，才能正常部署本文从GPU服务器获取、到 nvidia-docker的安装、再到Xinference 部署私有化三个模型，最后搭建dify（供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力，轻松构建和运营生成式 AI 原生应用）、最后再配置实例dify，配置dify实例，整合三个模型，最后实现知识库搭建。

Agent探索之本地大模型推理（Xinference）

weixin_43457608的博客

09-10

526

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。

[解锁强大的模型推理：使用Xinference与LangChain的结合]

fadbahgd的博客

12-08

1020

Xinference为模型推理提供了灵活而强大的工具，加上LangChain的结合，可以极大简化LLM和多模态模型的集成过程。LangChain文档Xinference GitHub页面。

推理框架 Xinference和大模型部署（ChatGLM为例）

weixin_52514174的博客

07-04

9476

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于各种模型的推理。通过 Xinference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xinference 与最前沿的 AI 模型，发掘更多可能。

【xinference】（8）：在autodl上，使用xinference部署qwen1.5大模型，速度特别快，同时还支持函数调用，测试成功！

freewebsys的专栏

04-02

1980

可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。然后就可以查看全部支持的模型进行启动。启动Xinference服务。

大模型笔记之-Xinference自定义注册模型

JunHowie的个人Blog

08-01

4921

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考"en"],"generate"],"4-bit","8-bit","none"],

Xinference：一款性能强大且功能全面的大模型部署与分布式推理框架

热门推荐

qq_46094651的博客

08-13

2万+

除了使用LLM模型的Web界面进行操作外，Xinference还提供了API接口，通过调用API接口来使用LLM模型。在API文档中，存在大量API接口，不仅有LLM模型的接口，还有其他模型(如Embedding)的接口，并且这些接口都是兼容OpenAI API的接口。通过访问来查看API文档。Xinference提供了管理模型整个生命周期的能力。

AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署

人工智能领域博客

05-07

8024

本文简要讲述了一行代码完成Xinference本地部署以及两行代码完成Xinference分布式部署以及webui和接口调用，其中快捷部署、极为友好的webui、可配modelscope以及提供兼容OpenAI的API等诸多优点，实属良心之作。真诚的希望通过写博客的方式将自己涉猎过的大模型开源项目分享给大家，由于个人经历有限，不能保证每篇文章都写的特别深入，但尽量保证内容自己实际操作过，避免大家重复踩坑。

部署快捷、使用简单、推理高效！大模型部署和推理框架 Xinference 来了！

2201_75499313的博客

03-14

1万+

diffusers单机多卡推理（全网首发）

weixin_43457608的博客

02-08

5621

我的理解是同一个模型不在一张卡上，auto应该是按层数拆的，但是一个transformer它是一整个块，被拆开会有问题（我是这么理解的，有懂的大神请指出谬误）。好运的是在Accelerate说明文档中我找到了下面的文章，使用init_empty_weights在加载模型时不加载权重，load_checkpoint_and_dispatch函数分发在不同机器上。翻到这篇发现是分布式推理，博主一直以为这个可以达到我想要的效果，但是效果是多线程并行推理，并不能将一个模型切片在多个GPU上。

【语言模型】Xinference的部署过程

kewaqi618的博客

06-28

7638

根据自己的需求构建自定义的Xinference Docker镜像，包括安装特定的依赖项、配置环境变量等。这有助于你更灵活地部署和管理Xinference服务。扩展API接口：如果你需要实现自定义的API接口或扩展现有接口的功能，你可以使用Xinference提供的Python SDK或RESTful API接口进行开发。这允许你根据自己的业务需求定制服务的功能和性能。

vLLM、Xinference和SGlang

03-12

<think>好的，我现在需要回答用户关于vLLM、Xinference和SGlang这三个技术项目的技术特点和用途的问题。首先，我得回忆一下这三个项目的基本信息，确保自己理解正确。 vLLM好像是一个高效的推理引擎，专门针对大语言模型优化。记得它采用了PagedAttention技术，类似操作系统的内存分页管理，这样可以提高显存利用率，减少内存碎片。可能用于大模型的部署，比如在服务器上处理多个并发请求。需要确认一下它的主要特点，比如高吞吐量和低延迟，支持哪些模型架构，比如Hugging Face的模型。然后是Xinference，这应该是专为中文场景设计的推理框架。可能支持多种硬件，包括CPU和GPU，并且有模型微调的功能。可能还提供RESTful API，方便集成到现有系统中。需要查证一下是否支持多模态模型，比如视觉或语音，以及它的分布式部署能力。接下来是SGlang，可能专注于高效处理结构化文本生成，比如JSON或XML格式的输出。可能优化了生成过程中的数据处理流程，减少冗余计算。可能适合需要严格输出格式的应用场景，比如自动化报告生成或数据提取。需要确认它是否支持流式生成和动态批处理，以及与其他框架的兼容性，比如是否基于PyTorch或TensorFlow。现在需要确保技术细节准确，比如vLLM的PagedAttention具体如何工作，Xinference支持的模型格式，以及SGlang如何处理结构化输出。还要注意区分这三个项目的不同应用场景，避免混淆。比如vLLM适合高并发的大模型推理，Xinference适合中文多模态任务，而SGlang适合结构化生成需求。最后，要组织信息，分点说明每个项目的技术特点和用途，保持回答结构清晰，符合用户的要求。</think>### 1. **vLLM** **技术特点**： - **高效显存管理**：采用类似操作系统的分页管理技术（PagedAttention），将显存划分为固定大小的块，减少内存碎片，提升大模型推理效率[^1]。 - **高吞吐量**：支持动态批处理（Continuous Batching），优化请求调度，提高GPU利用率。 - **兼容性**：支持Hugging Face模型格式，适配主流大语言模型（如LLaMA、GPT系列）。 **用途**： - 适用于大语言模型（LLM）的高并发推理场景，如在线问答、批量文本生成。 - 部署在云服务器或本地GPU集群时，显著降低推理成本。 --- ### 2. **Xinference** **技术特点**： - **多模态支持**：除文本模型外，支持视觉、语音模型的推理与微调。 - **分布式部署**：可通过集群管理实现横向扩展，支持CPU/GPU混合计算。 - **中文优化**：内置中文预训练模型（如ChatGLM、Qwen），提供中文分词和语义理解增强。 **用途**： - 适合中文场景的多模态AI服务，如智能客服、图像描述生成。 - 企业级私有化部署，支持通过REST API快速集成到业务系统。 --- ### 3. **SGlang** **技术特点**： - **结构化生成优化**：针对JSON/XML等格式输出设计专用解码器，减少冗余计算。 - **流式处理**：支持实时生成与动态截断，提升长文本生成效率。 - **轻量化**：基于PyTorch的轻量级框架，依赖项少，部署便捷。 **用途**： - 需严格结构化输出的场景，如自动化报告生成、数据提取。 - 低资源环境下的实时文本生成（如边缘设备）。 ---