深入 Dify 源码，洞察 Dify RAG 切片机制实现细节

易迟

已于 2024-08-06 16:26:23 修改

阅读量3.7k

点赞数 16

分类专栏：人工智能文章标签：人工智能 dify gpt

于 2024-08-06 16:26:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hustyichi/article/details/140959224

版权

背景介绍

最近测试时发现 Dify 的 RAG 分片效果一般，不管是使用之前深入 Dify 源码，洞察 Dify RAG 核心机制中有调研过的默认解析还是 Unstructured 解析。因此调研比较了大量的开源框架实现了特定格式的结构化解析方案，并与 Dify 现有解析流程进行了适配。

为了保证文件的解析能真正发挥出效果，需要保证预处理中其他环节也遵循前面的结构化方案进行处理，其中重要的一块就是文本的分片机制。深入了解 Dify 的实现细节后整理相关内容在这边，方便对 Dify RAG 实现机制感兴趣的同学。

Dify 切片简介

在前面的深入 Dify 源码，洞察 Dify RAG 核心机制已经大致了解到，Dify 的切片主要涉及的页面如下所示：
请添加图片描述

自动分段与清洗对应的就是 EnhanceRecursiveCharacterTextSplitter, 自定义对应的就是 FixedRecursiveCharacterTextSplitter，其实这两者实现机制的机制基本相同，主要差异是自定义机制将切片默认的参数提供给用户自由选择，并提供了一个额外的分段标识符。

Dify 切片机制

自动分段与清洗

Dify 的切片方案基本上是参考 langchain 实现，就是按照指定标识符列表进行递归切分，默认的切分的字符列表为 ["\n\n", "。", ". ", " ", ""]，切分过程举例如下所示：
请添加图片描述

第一步按照第一个标识符 \n\n 进行切分；
如果切分后分片的大小依旧超过指定的分片阈值，此时按照下一个标识符 。 进行切分；
长度依旧超过阈值，接下来按照下一个字符 . 切分，递归处理直到切分到的分片长度不超过阈值；

对应的代码在 api/core/rag/splitter/text_splitter.py 中：

def _split_text(self, text: str, separators: list[str]) -> list[

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

易迟 高质量内容创作不易，支持下

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。