ragflow 有哪些切片方法对应怎么使用？

玩人工智能的辣条哥

于 2025-04-28 09:07:10 发布

阅读量740

点赞数 18

分类专栏： RAG 文章标签： rag ragflow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42672685/article/details/146979177

版权

RAG 专栏收录该内容

10 篇文章

订阅专栏

环境：

ragflow

问题描述：

ragflow 有哪些切片方法对应怎么使用？

解决方案：

RAGFlow 提供了多种切片方法，用于根据文件的布局和内容特性进行分块处理。以下是 RAGFlow 支持的主要切片方法及其使用说明：

1. General 分块

适用文件格式：DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML。
功能说明：
- 系统使用视觉检测模型将连续文本分割成多个片段。
- 这些片段被合并成 Token 数不超过预设值的块。
使用场景：适用于通用文档的分块处理。

2. Q&A 分块

适用文件格式：EXCEL、CSV/TXT。
功能说明：
- Excel 文件需包含两列（无标题），一列为问题，另一列为答案。
- CSV 或 TXT 文件需以 TAB 分隔问题和答案。
- 每个问答对被视为一个独立的块。
使用场景：适用于问答格式的文件。

3. Manual 分块

适用文件格式：PDF。
功能说明：
- 假设手册具有分层部分结构。
- 使用最低部分标题作为切片的枢轴，确保同一部分中的图和表不会被分割。
使用场景：适用于手册或分层结构的 PDF 文件。

4. Table 分块

适用文件格式：EXCEL、CSV/TXT。
功能说明：
- CSV 或 TXT 文件需以 TAB 分隔列。
- 第一行必须是列标题，且列标题需有意义。
使用场景：适用于表格数据的分块处理。

5. Paper 分块

适用文件格式：PDF。
功能说明：
- 按论文的章节结构（如摘要、1.1、1.2 等）进行切片。
- 有助于 LLM 更好地概括相关章节内容。
使用场景：适用于学术论文的分块处理。

6. Book 分块

适用文件格式：DOCX、PDF、TXT。
功能说明：
- 支持为 PDF 文件设置页面范围，以节省分析计算时间。
使用场景：适用于书籍或长文档的分块处理。

7. Laws 分块

适用文件格式：DOCX、PDF、TXT。
功能说明：
- 使用文本特征检测分割点，粒度与“ARTICLE”一致。
- 所有上层文本都会包含在块中。
使用场景：适用于法律文件的分块处理。

8. Presentation 分块

适用文件格式：PDF、PPTX。
功能说明：
- 每个页面被视为一个块，并存储页面的缩略图。
- PPT 文件会自动使用此方法分块。
使用场景：适用于演示文稿的分块处理。

9. Picture 分块

适用文件格式：JPEG、JPG、PNG、TIF、GIF。
功能说明：
- 如果图片中有文字，使用 OCR 提取文字作为描述。
- 如果 OCR 提取的文本不足，可以使用视觉 LLM 获取描述。
使用场景：适用于图像文件的分块处理。

10. One 分块

适用文件格式：DOCX、EXCEL、PDF、TXT。
功能说明：
- 将整个文档视为一个完整的块，不进行分割。
- 适用于需要完整上下文的文档。
使用场景：适用于需要总结全文的文档。

使用步骤

选择切片方法：在 RAGFlow 的知识库配置页面中选择适合文件布局的切片方法。
上传文件：将文件上传到知识库。
解析文件：启动文件解析，RAGFlow 会根据选择的切片方法对文件进行分块。
干预切片结果：查看分块结果，必要时可以手动调整或添加关键字。

通过以上方法，您可以根据文件的特性和需求选择合适的切片方法，并在 RAGFlow 中高效地处理和管理文档。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

玩人工智能的辣条哥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。