RAGFlow解析（分块）方法说明

最新推荐文章于 2025-04-28 09:07:10 发布

hwmys

最新推荐文章于 2025-04-28 09:07:10 发布

阅读量8k

点赞数 13

文章标签： RAGFlow 解析方法

本文链接：https://blog.csdn.net/hwmys/article/details/145675562

版权

"General" 分块方法说明
支持的文件格式为DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML。
此方法将简单的方法应用于块文件：
系统将使用视觉检测模型将连续文本分割成多个片段。
接下来，这些连续的片段被合并成Token数不超过“Token数”的块。

"Q&A" 分块方法说明
此块方法支持 excel 和 csv/txt 文件格式。
如果文件是 excel 格式，则应由两个列组成没有标题：一个提出问题，另一个用于答案，答案列之前的问题列。多张纸是只要列正确结构，就可以接受。
如果文件是 csv/txt 格式以 UTF-8 编码且用 TAB 作分开问题和答案的定界符。
未能遵循上述规则的文本行将被忽略，并且每个问答对将被认为是一个独特的部分。

"Resume" 分块方法说明
支持的文件格式为DOCX、PDF、TXT。
简历有多种格式，就像一个人的个性一样，但我们经常必须将它们组织成结构化数据，以便于搜索。
我们不是将简历分块，而是将简历解析为结构化数据。作为HR，你可以扔掉所有的简历，您只需与'RAGFlow'交谈即可列出所有符合资格的候选人。

"Manual" 分块方法说明
仅支持PDF。
我们假设手册具有分层部分结构。我们使用最低的部分标题作为对文档进行切片的枢轴。因此，同一部分中的图和表不会被分割，并且块大小可能会很大。

"Table" 分块方法说明
支持
EXCEL和CSV/TXT格式文件。
以下是一些提示：
对于 csv 或 txt 文件，列之间的分隔符为 TAB。
第一行必须是列标题。
列标题必须是有意义的术语，以便我们的大语言模型能够理解。列举一些同义词时最好使用斜杠'/'来分隔，甚至更好使用方括号枚举值，例如 'gender/sex(male,female)'.
以下是标题的一些示例：
供应商/供货商'TAB'颜色（黄色、红色、棕色）'TAB'性别（男、女）'TAB'尺码（M、L、XL、XXL）
姓名/名字'TAB'电话/手机/微信'TAB'最高学历（高中，职高，硕士，本科，博士，初中，中技，中专，专科，专升本，MPA，MBA，EMBA）
表中的每一行都将被视为一个块。

"Paper" 分块方法说明
仅支持PDF文件。
如果我们的模型运行良好，论文将按其部分进行切片，例如摘要、1.1、1.2等。
这样做的好处是LLM可以更好的概括论文中相关章节的内容，产生更全面的答案，帮助读者更好地理解论文。缺点是它增加了 LLM 对话的背景并增加了计算成本，所以在对话过程中，你可以考虑减少‘topN’的设置。

"Book" 分块方法说明
支持的文件格式为DOCX、PDF、TXT。
由于一本书很长，并不是所有部分都有用，如果是 PDF，请为每本书设置页面范围，以消除负面影响并节省分析计算时间。

"Laws" 分块方法说明
支持的文件格式为DOCX、PDF、TXT。
法律文件有非常严格的书写格式。我们使用文本特征来检测分割点。
chunk的粒度与'ARTICLE'一致，所有上层文本都会包含在chunk中。