【大模型】使用 Xinference 部署本地模型,从GPU服务器到本地知识库搭建Dify【LLM大语言模型(glm-4-9b-chat)、Rerank 模型、Embedding(向量)模型】

基本介绍

基础信息

  • 本文会用到博主写的一些线上脚本,如果搭建者时纯内网的话,可能需要手动压缩镜像,然后解压镜像,才能正常部署
  • 本文从GPU服务器获取、到 nvidia-docker的安装、再到Xinference 部署私有化三个模型,最后搭建dify(供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力,轻松构建和运营生成式 AI 原生应用)、最后再配置实例dify,配置dify实例,整合三个模型,最后实现知识库搭建

GPU服务器获取

  • UCloud GPU服务器30块使用7天,显卡P40,主要是显存大,本来来测试足矣
  • 注册UCloud账号:https://passport.ucloud.cn/?invitation_code=C1x3C93EC6B6768
  • 购买特惠GPU服务器地址:GPU云服务器特惠
  • 购买 Tesla P40 24G显存,单精度浮点性能12 TFLOPS
    在这里插入图片描述
  • 博主在安装的时候GPU主机 选择的是 CentOS7.8,建议大家选择一样的系统
  • 可能用P40显卡后面驱动版本、CUDA版本的兼容性,可能花点时间

基础安装

基础信息安装

  • 拿到服务器后,进行基础的命令初始化、docker安装等,这里博主提供脚本给大家
  • 基础安装
wget -O centos7-init.sh https://files.rundreams.net/sh/run-sh/init/centos7-init.sh && sh centos7-init.sh
  • docker安装
wget -O docker-install.sh https://files.rundreams.net/sh/run-sh/docker/docker-install.sh && sh docker-install.sh
  • 由于Xinference的docker镜像包比较大,所以建议大家在docker安装成功后,就进行进行包拉取,差不多在18G左右
docker pull registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference

在这里插入图片描述

显卡驱动配置

显卡检查

  • 执行命令:lspci | grep -i nvidia
    在这里插入图片描述
  • 去英伟达官网下载相应的驱动
  • 驱动下载地址:https://www.nvidia.cn/drivers/lookup/
  • 本文采用的是 Tesla P40 ,所以下载相应的驱动
    在这里插入图片描述

下载

wget https://cn.download.nvidia.cn/tesla/550.90.07/NVIDIA-Linux-x86_64-550.90.07.run

禁用nouveau系统自带驱动

  • 安装驱动前,需要禁用nouveau系统自带驱动
  • 查看系统自带的驱动,如果有结果,则说明存在nouveau,没有则直接跳过这一步
lsmod | grep nouveau
  • 禁用nouveau系统自带驱动
# 编辑如下文件:
vi /usr/lib/modprobe.d/dist-blacklist.conf

# 然后在最后添加如下内容:
blacklist
### 关于 XinferenceDify知识库及相关资料 #### Xinference 的核心功能与部署方式 Xinference 是一个用于部署本地模型的工具,支持多种类型的模型,包括大语言模型 (LLM)、嵌入模型 (Embedding Model) 和重排序模型 (Rerank Model)[^4]。通过 Docker 容器化的方式,Xinference 可以轻松运行在配备 GPU服务器上,并提供高效的推理服务。其主要用途之一是将文本数据转化为高维向量表示,以便后续进行相似度计算或其他操作[^2]。 以下是基于 Xinference 部署 Embedding 模型的一个简单示例: ```bash # 启动容器并加载预训练好的 Embedding 模型 docker run --gpus all -p 8000:8000 xinference/xinference:latest \ --model-name glm-4-9b-chat \ --model-type embedding ``` #### Dify 的架构设计及其依赖的知识库 Dify 是一款专注于企业级应用的大规模语言模型解决方案,能够集成私有知识库来增强对话系统的性能[^1]。它的工作流程通常涉及以下几个阶段: 1. **文本处理**:输入用户的查询请求; 2. **知识检索**:利用 Embedding 模型对存储在知识库中的文档进行编码并与用户提问匹配[^3]; 3. **生成回复**:调用 LLM 或其他生成模块完成最终响应构建。 对于 HomeSmartX1 这样的虚构产品而言,如果已经准备好了一份详尽的产品说明文件,则可以通过上传至 Dify 平台形成专属领域内的语义理解能力。 #### 综合资源推荐 针对希望深入了解这两个项目的开发者来说,可以从下面几个方面入手寻找更多学习材料: - 访问官方 GitHub 页面获取最新源码更新以及社区贡献内容; - 查阅相关技术博客文章了解实际应用场景案例分享; - 加入 Discord/Slack 等聊天群组与其他使用者交流经验心得。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

rundreamsFly

达者不再兼济天下,却怪穷者独善

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值