大家觉得做一个大模型检索增强生成（RAG）系统，最难搞定的是哪部分工作？-CSDN博客

本文链接：https://blog.csdn.net/2401_85375151/article/details/146311215

最近两个月的业余时间参与了几个RAG应用开发，最头疼的两个问题是：数据清洗和权限区分。

目前企业的数据可能有一半以上都是半结构化数据。一个word/pdf文档里包含文字、图片、表格等信息司空见惯，一个PPT文件里全是带文字的图解也是常有的事。主流的数据清洗方式很难通吃多样的半结构化数据，很大情况下还是需要人工审核每一个文档，把一次性处理做不好的挑出来重新处理。

这里是主流的文档预处理框架：

框架名称	主要功能	支持的文档格式	输出格式	特点
MinerU	将 PDF 转换为机器可读格式，如 Markdown、JSON，支持公式和表格的识别与转换。	PDF	Markdown、JSON、LaTeX、HTML	支持复杂公式解析，适用于科技文献的符号转换。
Marker	提取 PDF 文档内容，支持文本、表格和图像的解析。	PDF	Markdown、JSON	能将表格解析为 Markdown 结构，但在复杂表格处理上可能存在问题。
PaddleOCR	基于深度学习的 OCR 系统，支持多语言文本检测和识别。	图片、PDF	文本、JSON	具备文字识别和版面分析能力，但缺乏必要的后处理步骤。
Unstructured	处理多种文档格式，提取文本和元数据，适用于非结构化数据的解析。	PDF、DOCX、PPT、HTML 等	JSON、文本	支持多种文档格式的解析，适合处理非结构化数据。
Zerox	基于 GPT 的 OCR 工具，将 PDF、DOCX 等文件转换为 Markdown 格式。	PDF、DOCX、图像	Markdown	零配置，易于使用，支持批量处理，转换速度快。
Docling	多格式文档解析和导出工具，支持高级 PDF 理解和 OCR 功能。	PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc、Markdown	HTML、Markdown、JSON	支持多种文档格式的解析，易于与 LlamaIndex 和 LangChain 集成。
OmniGen	文档解析和生成工具，支持从多种格式的文档中提取内容并生成结构化数据。	PDF、DOCX、PPTX、HTML 等	JSON、XML、Markdown	支持多种文档格式的解析，提供结构化数据输出，适用于数据提取和内容生成。

然后就是服务于大中型企业的数据本身可能存在权限层级和不同架构间的区分。重排序往往只能把检索召回的块基于query重新排序。但这解决不了两个问题：数据存在语义之外的优先级，用户也存在访问权限的隔离需求。

比如某个企业的总部制定的章程和分公司的章程本身存在某些冲突，现实中默认分公司员工按照分公司的章程，不区分用户是谁而返回的结果可能就是不适用的错误答案。

至于解决管理层和普通员工之间的权限，最直接的办法是知识库分离。但是这也并不是什么好方法，因为企业中存在授权操作，此时就需要在知识库和应用之外增加一套额外的权限准入逻辑。

市面上现有的开源RAG各有优缺点，目前看非结构化文档召回做的最好的是RAGFlow，尤其是知识库的直接搜索功能很惊艳。但是它在嵌入其他生态上提供的接口相对单一。其他几家要么是生态功能更全，要么是接口更丰富，要么Rerank做的好……简言之就是甘蔗没有两头甜，只有全试过了才知道具体哪个框架适用什么样的落地场景。

框架名称	文档切分	召回	检索	重排序
RAGFlow	强调文档的精细化解析，能够从复杂格式的非结构化数据中提取信息，提供基于模板的文本切片功能，文本切片过程可视化，支持手动调整。	基于多路召回，融合重排序，提供可靠的问答和有理有据的引用。	兼容各类异构数据源，支持丰富的文件类型，包括 Word 文档、PPT、Excel 表格、PDF 等。	提供有理有据的答案，降低幻觉（hallucination），答案提供关键引用的快照并支持追根溯源。
FastGPT	提供自动数据预处理，支持手动输入、直接分段、LLM 自动处理和 CSV 等多种数据导入途径，自动对文本数据进行预处理、向量化和 QA 分割。	支持混合检索和重排，提供强大的 RAG 引擎，能够高效地处理和检索大量数据。	采用直观的可视化界面，支持多种数据导入方式，自动化工作流程编排，提升检索效率。	支持工作流编排，基于 Flow 模块设计，提供简易模式和工具调用，提升重排序能力。
QAnything	文档处理能力一般，主要依赖于现有的文档解析工具，未强调特定的文档切分技术。	强调 Embedding 与 Rerank 模型的联合使用提升文档召回质量，Rerank 模块设计优秀。	采用 Embedding 技术进行检索，结合 Rerank 模型提高检索精度。	Rerank 模块设计优秀，能够有效提升文档召回质量。
MaxKB	提供简单易用的界面，支持多种数据格式的导入和导出，内置知识库管理系统，便于用户管理和利用知识资源。	内置知识库管理系统，支持多种数据格式的导入和导出，便于用户管理和利用知识资源。	支持多种数据格式的导入和导出，内置知识库管理系统，便于用户管理和利用知识资源。	提供高效的 Workflow 设计，支持拖拽式操作，使得非技术人员也能快速上手。
Dify	功能完善，支持从 PDF、PPT 和其他常见文档格式中提取文本，提供丰富的预设模板和集成工具。	支持跨知识库召回，提供丰富的召回模式，适用于复杂业务逻辑和数据处理需求。	提供丰富的预设模板和集成工具，支持多种检索模式，适用于复杂业务逻辑和数据处理需求。	支持工作流编排，提供丰富的预设模板和集成工具，适用于复杂业务逻辑和数据处理需求。