【大模型】使用 Xinference 部署本地模型，从GPU服务器到本地知识库搭建Dify【LLM大语言模型（glm-4-9b-chat）、Rerank 模型、Embedding（向量）模型】

置顶

rundreamsFly

已于 2025-04-27 14:41:13 修改

阅读量1w

点赞数 47

分类专栏： AI # 大模型文章标签：大模型 vLLM Xinference Dify Rerank模型 Embedding（向量）模型大模型私有化部署

于 2024-09-04 19:49:12 首次发布

本文链接：https://blog.csdn.net/u010800804/article/details/141756410

版权

基本介绍

本文会用到博主写的一些线上脚本，如果搭建者时纯内网的话，可能需要手动压缩镜像，然后解压镜像，才能正常部署
本文从GPU服务器获取、到 nvidia-docker的安装、再到Xinference 部署私有化三个模型，最后搭建dify（供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力，轻松构建和运营生成式 AI 原生应用）、最后再配置实例dify，配置dify实例，整合三个模型，最后实现知识库搭建

wget -O centos7-init.sh https://files.rundreams.net/sh/run-sh/init/centos7-init.sh && sh centos7-init.sh

wget -O docker-install.sh https://files.rundreams.net/sh/run-sh/docker/docker-install.sh && sh docker-install.sh

docker pull registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference

在这里插入图片描述

wget https://cn.download.nvidia.cn/tesla/550.90.07/NVIDIA-Linux-x86_64-550.90.07.run

lsmod | grep nouveau

# 编辑如下文件：
vi /usr/lib/modprobe.d/dist-blacklist.conf

# 然后在最后添加如下内容：
blacklist