Dify/FastGPT/RagFlow 分别通过 vLLM 和 Xinference 接入本地模型

最新推荐文章于 2025-04-15 17:10:22 发布

学亮编程手记

最新推荐文章于 2025-04-15 17:10:22 发布

阅读量1.1k

点赞数 6

分类专栏： chatgpt 文章标签： LLM 人工智能

本文链接：https://blog.csdn.net/a772304419/article/details/146587078

版权

169 篇文章

订阅专栏

vLLM 是一个高性能的 LLM 推理引擎，支持本地模型的低延迟、高吞吐部署。以下是具体步骤：

安装 vLLM：
```
pip install vllm
```
启动本地模型服务（例如 Llama3）：
```
vllm serve --model /path/to/local_model --tensor-parallel-size 1 --port 8000
```
参数说明：
- --tensor-parallel-size：GPU 并行数量（单卡设为 1）。
- --port：服务端口，后续通过 API 调用。

Dify：
1. 进入 Dify 的 模型供应商设置，选择 自定义模型。
2. 填写 vLLM 的 API 地址（如 http://localhost:8000）和模型名称。
3. 测试连接后保存，即可在工作流中调用本地模型。

FastGPT：
修改 config.json 文件，添加 vLLM 的模型配置：

{
  "model": "vllm-local",
  "api_base": "http://localhost:8000/v1",
  "api_key": "none"
}

重启 FastGPT 服务生效。

RagFlow：
在 ragflow.yml 配置文件中指定 vLLM 作为生成模型：
```
llm:
  provider: vllm
  endpoint: "http://localhost:8000"
```

Xinference 是一个支持分布式推理的框架，适合多模型管理和异构硬件环境。

启动本地模型（例如 Qwen2）：

xinference launch --model-name qwen2 --model-format pytorch --model-path /path/to/local_model

服务默认运行在 http://localhost:9997 11。

Dify：
1. 在 模型供应商 中选择 Xinference。
2. 输入模型 UID 和 API 地址（如 http://localhost:9997）。
3. 支持动态切换模型（如 Llama3、ChatGLM3）。

FastGPT：
通过 One-API 中转配置：

{
  "channel_type": "xinference",
  "base_url": "http://localhost:9997/v1"
}

RagFlow：
修改 docker-compose.yml，添加 Xinference 作为 LLM 后端：

environment:
  LLM_PROVIDER: xinference
  XINFERENCE_ENDPOINT: "http://xinference:9997"