Dify/FastGPT/RagFlow 分别通过 vLLM 和 Xinference 接入本地模型

1. 通过 vLLM 接入本地模型

vLLM 是一个高性能的 LLM 推理引擎,支持本地模型的低延迟、高吞吐部署。以下是具体步骤:

1.1 部署 vLLM 服务
  • 安装 vLLM
    pip install vllm
    
  • 启动本地模型服务(例如 Llama3):
    vllm serve --model /path/to/local_model --tensor-parallel-size 1 --port 8000
    
    参数说明:
    • --tensor-parallel-size:GPU 并行数量(单卡设为 1)。
    • --port:服务端口,后续通过 API 调用。
1.2 在 Dify/FastGPT/RagFlow 中配置 vLLM
  • Dify

    1. 进入 Dify 的 模型供应商设置,选择 自定义模型
    2. 填写 vLLM 的 API 地址(如 http://localhost:8000)和模型名称。
    3. 测试连接后保存,即可在工作流中调用本地模型 。
  • FastGPT
    修改 config.json 文件,添加 vLLM 的模型配置:

    {
      "model": "vllm-local",
      "api_base": "http://localhost:8000/v1",
      "api_key": "none"
    }
    

    重启 FastGPT 服务生效 。

  • RagFlow
    ragflow.yml 配置文件中指定 vLLM 作为生成模型:

    llm:
      provider: vllm
      endpoint: "http://localhost:8000"
    
1.3 性能优化
  • 使用 --gpu-memory-utilization 0.9 控制显存占用。
  • 启用连续批处理(--enforce-eager)提升吞吐量 。

2. 通过 Xinference 接入本地模型

Xinference 是一个支持分布式推理的框架,适合多模型管理和异构硬件环境。

2.1 部署 Xinference 服务
  • 安装 Xinference
    pip install "xinference[all]"
    
  • 启动本地模型(例如 Qwen2):
    xinference launch --model-name qwen2 --model-format pytorch --model-path /path/to/local_model
    
    服务默认运行在 http://localhost:9997 11
2.2 配置 Dify/FastGPT/RagFlow
  • Dify

    1. 模型供应商 中选择 Xinference
    2. 输入模型 UID 和 API 地址(如 http://localhost:9997)。
    3. 支持动态切换模型(如 Llama3、ChatGLM3)。
  • FastGPT
    通过 One-API 中转配置:

    {
      "channel_type": "xinference",
      "base_url": "http://localhost:9997/v1"
    }
    
  • RagFlow
    修改 docker-compose.yml,添加 Xinference 作为 LLM 后端:

    environment:
      LLM_PROVIDER: xinference
      XINFERENCE_ENDPOINT: "http://xinference:9997"
    
2.3 高级功能
  • 分布式推理:通过 --worker-num 启动多节点 。
  • 模型量化:支持 4-bit/8-bit 量化降低显存占用 。

3. 对比与选型建议

工具vLLM 优势Xinference 优势
性能更高吞吐(PagedAttention 优化)支持多模型混合部署
扩展性单机优化支持集群和异构硬件
易用性配置简单提供 WebUI 管理模型
适用场景高并发生成任务多模型实验或企业级部署
  • 推荐场景
    • 需要极致性能:选择 vLLM
    • 需要灵活管理多个本地模型:选择 Xinference 14

4. 常见问题解决

  • Dify 连接失败:检查 API 地址和端口,确保防火墙放行 。
  • OOM 错误:降低 --gpu-memory-utilization 或启用 CPU offload 。
  • 模型加载慢:使用 XINFERENCE_MODEL_SRC=modelscope 加速下载 。
### 特点 #### Dify Dify是一款开源的大语言模型应用开发平台,融合了后端即服务(Backend as a Service)LLMOps的理念,使得开发者能快速构建生产级别的生成式AI应用程序[^3]。对于非技术背景的人士来说,也可以参与至AI应用的定义以及数据运营过程之中。 #### FastGPT FastGPT的知识库检索能力强于Dify,支持创建多个预览地址并可单独统计各个预览地址的使用状况以便更好地进行分析与优化工作[^1][^2]。然而,“Web站点同步”“外部文件库”的功能仅限付费用户使用,即使是本地部署也不例外。 ### 性能 在知识库检索方面,FastGPT表现得更为出色;而在易用性用户体验上,则是Dify更胜一筹——不仅部署简单快捷,其UI设计也更加友好直观。此外,Dify还提供了一系列实用的内置工具及模板供使用者选用,相比之下,FastGPT在这方面的资源较为匮乏。 ### 适用场景 当考虑成本因素时,如果项目预算有限或者希望获得更多的灵活性来定制化自己的解决方案,那么可以选择Dify作为首选方案,因为该平台上许多高级特性都是免费提供的,并且不存在像FastGPT那样的严格数量限制。 另一方面,如果有较高的精度需求并且愿意为此支付额外费用的话,那么可能会倾向于选择FastGPT来进行复杂查询处理的任务,尤其是在涉及到大规模文档索引的情况下。 ```bash # 使用 Docker 安装 FastGPT 示例命令 curl -o docker-compose-pgvector.yml https://raw.githubusercontent.com/labring/FastGPT/main/files/docker/docker-compose-pgvector.yml docker-compose up -d ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

学亮编程手记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值