服务器有2张显卡，在别的虚拟环境部署运行了Xinference，然后又建个虚拟环境再部署一个可以吗？

最新推荐文章于 2025-04-23 14:01:02 发布

玩人工智能的辣条哥

最新推荐文章于 2025-04-23 14:01:02 发布

阅读量252

点赞数

分类专栏：实操经验专题文章标签： Xinference 推理框架大模型 AI

本文链接：https://blog.csdn.net/weixin_42672685/article/details/146908297

版权

实操经验专题专栏收录该内容

50 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

环境：

云服务器Ubuntu系统

2张 NVIDIA H20 96GB

Qwen2.5-VL-72B-Instruct-AWQ Qint4量化

AWQ 是 “Activation - Aware Weight Quantization” 的缩写，即激活感知权重量化。它是一种针对大型模型的先进量化算法，通过在权重量化过程中引入对激活值的感知，最小化量化误差对模型输出的影响，实现在保持模型精度的同时，提高压缩比和推理速度提升。

问题描述：

服务器有2张显卡，在别的虚拟环境部署运行了Xinference，然后又建个虚拟环境再部署一个可以吗？

目前 xinference 的策略是只能运行一个模型
在这里插入图片描述

解决方案：

1. 可行性分析

硬件条件：2 张显卡（如 NVIDIA T4/A10G）可以分配给不同实例。

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

玩人工智能的辣条哥

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

Langchain-Chatchat本地部署的解决方案

herosunly的博客

08-28

15万+

本文主要介绍了Langchain-Chatchat本地部署的解决方案，希望对学习大语言模型的同学们有所帮助。文章目录 1. 前言 2. 配置环境 2.1 安装虚拟环境 2.2 安装依赖库 3. 启动xinference 4. 启动Langchain-Chatchat

Langchain-chatchat源码部署及测试实验

hhue2007的专栏

09-20

486

Langchain-chatchat从0.3版本开始，支持更多的部署框架，如xinference、Ollama和FastChat，较多的是xinference框架，因此本文也是基于该框架进行模型部署。开始时参考了作者提供的开发指南进行部署，感觉步骤较多且麻烦，因此我就采用直接修改源码方式进行部署，作者提供的前端没有用，主要使用的是libs下面的后端接口和默认基于Streamlit提供的前端测试功能。另外，我更新完善了本地知识库加载的多种文件格式解析模块，增加了验证和路由过滤模块、返回数据格式等。

参与评论您还未登录，请先登录后发表或查看评论

AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署

huang9604的博客

09-18

4353

大语言模型推理服务框架—Ollama介绍了Ollama，Ollama以出色的设计一行命令完成推理框架部署，一行命令完成大模型部署，模型的下载不依赖梯子，速度非常快，大幅提升模型部署效率，同时，当有多卡GPU时，Ollama可以自动将模型分片到各个GPU上，博主使用V100显卡（单卡32G显存）部署llama3 70B（预计需要40G显存），自动完成了显存分配。

大模型多显卡识别问题

liuhagen的专栏

11-16

511

3. **检查 NVIDIA 驱动程序版本**： ```bash nvidia-smi ``` 确认驱动程序版本是否与 CUDA 版本兼容。检查 `CUDA_VISIBLE_DEVICES` 环境变量**： ```bash echo $CUDA_VISIBLE_DEVICES ``` 如果输出为空或不包含所有 GPU，可以设置该环境变量以包含所有 GPU： ```bash export CUDA_VISIBLE_DEVICES=0,1,2,3。### 分析与修复建议 ##### 根据实际情况修改 ```

xinference服务器部署下载模型启动

weixin_45515807的博客

09-02

1887

2.这里面缺个包,我的版本是linux 3.11的包的名字叫这个llama_cpp_python-0.2.85-cp311-cp311-linux_x86_64 (1).whl。具体版本根据自己的下载:https://github.com/abetlen/llama-cpp-python/releases/tag/v0.2.85-cu121。前言:之前部署智普 qwen模型都是本地部署的.这里给大家推荐个xinference,具体可以搜一下科普一下.好处是体验语言模型,向量模型更简单方便了.

Xinference 分布式推理框架的部署

OFFTime_we的博客

01-12

1565

例如：随着AI模型的不断发展，AI模型的应用也越来越重要，Xinference部署则是学习的基石，本文就介绍了Xinference的模型部署与管理。

xinference服务器部署下载启动qwen2.5各种版本模型

weixin_45515807的博客

09-24

1340

3.这里如果你一张显卡就CUDA_VISIBLE_DEVICES=0 xinference-local --host 0.0.0.0 --port 9997这样启动,多张显卡还跟以前一样xinference-local --host 0.0.0.0 --port 9997启动。AWG（Adaptive Weight Granularity）：一种量化方法，通过自适应地调整权重的量化精度，以优化模型在特定硬件上的性能和效率。transformers，最普遍的兼容性，但是吞吐差。更新前先停止之前的服务。

Xinference内网环境离线部署并上传模型集成到dify

2301_79182232的博客

04-23

719

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。

【大模型】Xinference的安装和部署

magic_ll的博客

12-29

9453

Xinference通过提供简单API和强大的功能，使得私有化模型的大规模部署成为可能，无论是在个人电脑还是分布式集群中，都能够发挥异构硬件的全部潜力，达到最极致的吞吐量与最低的推理延迟。：Xinference简化了包括大语言模型、多模态模型、语音识别模型等模型部署的过程，允许用户轻松一键部署自己的模型或内置的前沿开源模型。：Xinference专注于优化模型的推理性能，并支持多种类型的模型，包括深度学习模型。如下图，待参数设置OK后，点击小火箭，则下载模型和加载模型，模型下载到默认路径。

windows wsl2（ubuntu）使用xinference快速部署ai模型

m0_61069946的博客

03-26

3011

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。

【多智能体控制】基于matlab事件触发多智能体编队控制（含间歇控制）【含Matlab源码 13223期】.zip

04-24

Matlab领域上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

《网页制作基础教程(Dreamweaver-CS3)》第11章-嵌入表单元素.ppt

04-24

《网页制作基础教程(Dreamweaver-CS3)》第11章-嵌入表单元素.ppt

V1_3_example.ipynb

04-24

V1_3_example.ipynb

《计算机应用基础项目教程》项目四-电子表格软件Excel2010的使用.pptx

04-24

《计算机应用基础项目教程》项目四-电子表格软件Excel2010的使用.pptx

《计算机系统结构》第4章-指令级并行.ppt

04-24

《计算机系统结构》第4章-指令级并行.ppt

西门子1200博途三部十层电梯控制系统及WinCC RT Pro界面设计详解

04-24

内容概要：本文详细介绍了基于西门子S7-1200 PLC和WinCC RT Pro的三部十层电梯联控系统的设计与实现。主要内容涵盖硬件配置、核心算法如电梯间协同算法、方向判断函数、状态机设计、呼叫调度算法以及WinCC画面设计中的动画效果和平滑移动实现方法。文中还讨论了常见的调试问题及其解决方案，如方向锁死、编码器干扰等。此外，强调了状态机在电梯控制中的重要性，并提供了具体的代码示例来解释各个功能模块的工作原理。适合人群：自动化工程师、PLC程序员、HMI开发者、工业控制系统设计师。使用场景及目标：适用于希望深入了解电梯控制系统设计原理和技术实现的专业人士。目标是帮助读者掌握电梯联控系统的编程技巧，提高对工业控制项目的理解和应用能力。其他说明：文章不仅提供详细的代码片段，还分享了许多实践经验，有助于读者更好地理解和应对实际工程项目中的挑战。

飞猫智联u20一键打开adb并安装

最新发布

04-24

飞猫智联u20一键打开adb并安装

DeepSeek：智能时代的全面到来和人机协作的新常态.pdf

04-24

DeepSeek：智能时代的全面到来和人机协作的新常态.pdf

电机控制领域PMSM无传感HFI高频谐波注入与滑模观测器仿真模型解析（基于28035）

04-24

内容概要：本文深入探讨了永磁同步电机（PMSM）无传感器控制技术中的高频谐波注入（HFI）方案及其滑模观测器仿真模型。主要介绍了HFI的工作原理，即通过向电机定子绕组注入高频信号并检测其响应来估算转子位置和速度。文中提供了详细的代码实现，包括高频信号生成、电流检测与处理、滑模观测器核心算法等。此外，还分享了实际工程项目中的调试经验和常见问题解决方案，如参数选择、硬件配置、滤波处理等。适合人群：从事电机控制系统开发的技术人员，尤其是对PMSM无传感器控制感兴趣的工程师。使用场景及目标：适用于需要提高PMSM电机控制性能的应用场合，如工业自动化设备、伺服系统等。目标是在低速条件下实现精确的转子位置和速度估算，从而提升系统的整体性能。其他说明：文章不仅提供了理论和技术细节，还结合了大量实践经验，帮助读者更好地理解和应用HFI技术。同时强调了实际工程中需要注意的各种细节，如参数整定、硬件配置、滤波处理等，确保方案的可靠性和稳定性。

Xinference怎么安装集成到dify

04-01

### Xinference 安装与 Dify 集成教程 #### 一、环境准备在开始之前，需确认已成功配置 NVIDIA GPU 环境，包括安装显卡驱动程序、CUDA 和 CuDNN。这些工具的版本应与所使用的 GPU 显卡兼容[^1]。 #### 二、Xinference 的安装以下是 Xinference 的具体安装过程： 1. **创建虚拟环境** 推荐使用 Python 虚拟环境来管理依赖项。 ```bash python -m venv xinference-env source xinference-env/bin/activate ``` 2. **安装 Xinference** 使用 pip 工具安装最新版 Xinference 库。 ```bash pip install xinference ``` 3. **验证安装** 运行以下命令以启动 Xinference 并测试其功能。 ```bash xi serve --model-type llm ``` 如果服务正常运行，则说明安装成功。 #### 三、Dify 的部署按照官方文档完成 Dify 的基础部署工作。如果尚未完成此部分，请参考相关指南进行操作。 #### 四、Xinference 与 Dify 的集成要实现两者的无缝协作，可以遵循以下方法： 1. **修改 Dify 配置文件** 打开 `dify/config.py` 文件，在其中指定模型加载路径以及接口地址。假设 Xinference 正常运行于本地服务器上，默认监听端口为 `8000`，则可设置如下参数： ```python MODEL_SERVER_URL = "http://localhost:8000" INFERENCE_ENGINE_TYPE = "xinference" ``` 2. **更新 API 密钥（如有必要）** 若启用了身份认证机制，则还需提供有效的 API Token 或密钥用于访问远程推理引擎实例。 3. **重启应用服务** 修改完成后重新启动整个应用程序堆栈，确保更改生效。 ```bash dify restart ``` 通过上述步骤即可顺利完成两者之间的对接，并充分发挥硬件资源的优势提升性能表现。 ```python import requests def query_model(prompt, model_server_url="http://localhost:8000"): payload = {"prompt": prompt} response = requests.post(f"{model_server_url}/v1/completions", json=payload) return response.json() result = query_model("What is the capital of France?") print(result["choices"][0]["text"]) ```