RAGflow分片策略与文档解析器（一）11种RAGflow分块方法详解！-CSDN博客

本文链接：https://blog.csdn.net/Code1994/article/details/148492536

在使用智能系统处理海量文档时，你是否遇到过这样的困扰：输入问题后，得到的答案要么答非所问，要么信息碎片化，无法精准命中需求？其实，这背后很大程度上是知识切片环节出了问题。而 RAGflow 的分片策略，就像是一把精准的 “手术刀”，能巧妙解决这些难题，让知识检索变得既精准又高效。

传统的文本切片方式，往往采用固定长度分割或简单的按段落划分，这种 “一刀切” 的做法，在面对复杂文档时，容易割裂知识的完整性，导致检索结果出现偏差。想象一下，一篇包含多个专业知识点、逻辑紧密的学术论文，若被随意切割，当用户检索特定概念时，系统很可能无法关联到完整且准确的内容。

其实在项目中，我们也碰到了客户经常问这些问题，我们的文档，如何采用更加合理的分块策略，才能更好的查询到所需的数据，这些才是客户更加关注的。

那我们来看下RAGflow提供了哪些分块的方法

一、切片方法

在这里插入图片描述

支持的文件格式为DOCX、XLSX、XLS (Excel97~2003)、PPT、PDF、TXT、JPEG、JPG、PNG、TIF、GIF、CSV、JSON、EML、HTML。

此方法将简单的方法应用于块文件：

此块方法支持 excel 和 csv/txt 文件格式。

支持的文件格式为DOCX、PDF、TXT。

仅支持PDF。

在这里插入图片描述

支持XLSX和CSV/TXT格式文件。

对于 csv 或 txt 文件，列之间的分隔符为 TAB。
第一行必须是列标题。
列标题必须是有意义的术语，以便我们的大语言模型能够理解。列举一些同义词时最好使用斜杠’/'来分隔，甚至更好使用方括号枚举值，例如 ‘gender/sex(male,female)’。
表中的每一行都将被视为一个块。

在这里插入图片描述

仅支持PDF文件。

如果我们的模型运行良好，论文将按其部分进行切片，例如摘要、1.1、1.2等。
这样做的好处是LLM可以更好的概括论文中相关章节的内容，产生更全面的答案，帮助读者更好地理解论文。缺点是它增加了 LLM 对话的背景并增加了计算成本，所以在对话过程中，你可以考虑减少‘topN’的设置。

在这里插入图片描述

支持的文件格式为DOCX、PDF、TXT。

支持的文件格式为DOCX、PDF、TXT。

支持的文件格式为PDF、PPTX。

支持的文件格式为DOCX、EXCEL、PDF、TXT。

Tag 分块方法支持XLSX和CSV/TXT文件格式。

使用“Tag”分块方法的知识库用作标签集.其他知识库可以把标签集当中的标签按照相似度匹配到自己对应的文本块中，对这些知识库的查询也将根据此标签集对自己进行标记。
使用“标签”作为分块方法的知识库不参与 RAG 检索过程。
标签集中的每个文本分块是都是相互独立的标签和标签描述的文本对。
如果文件为XLSX格式，则它应该包含两列无标题：一列用于标签描述，另一列用于标签，标签描述列位于标签列之前。支持多个工作表，只要列结构正确即可。
如果文件为 CSV/TXT 格式，则必须使用 UTF-8 编码并以 TAB 作为分隔符来分隔内容和标签。
在标签列中，标签之间使用英文逗号分隔。不符合上述规则的文本行将被忽略。