一、为什么RAG需要结构化数据
这里的结构化是指和数据本身相关的,有限的结构化清洗。
检索增强生成RAG(Retrieval-Augmented Generation)通过从知识库检索相关内容,辅助生成更为准确的答案。所以知识库的数据质量直接决定了RAG的效果。非结构化的数据会导致检索噪声大、语义理解偏差等问题,而结构化的数据能够显著提升检索精度。
二、数据结构化的核心目的
1.解决杂乱数据知识库回答不准的痛点
(1)关键词依赖性强:非结构化文本依赖关键词匹配,容易遗漏语义关联。
(2)冗余信息干扰:文档中的诸多不想关信息会干扰检索的结果。
(3)上下文割裂:一个完整的信息被分割成多段,每段进行独立向量化,最后检索的时候很难把这几段信息找齐。
2.结构化数据的优势
- 精准语义理解:通过标签化、分类字段,模型能理解数据的深层含义。
- 高效检索:支持多维度过滤,提升召回率。
- 可控生成:结构化的知识单元完整,同类同组数据不分割。
3.结构化方法(以pdf为例)
结构化方法是指有限的结构化,需要和使用的工具结合。以pdf文件为例。
(1)PDF文件清洗
由于PDF文件中有表格和图片,第一步进行识别,把表格转化为文本,图片根据需要进行OCR处理。
(2)打标签
给数据打标签,让每个数据信息更全面、完整,这样向量信息就会更准确,检索的准确度自然就更高了。
(3)分块
文本拆分时,尽量不要把同一个主题,同一个完整内容拆开,选择合适的分隔符,对文件进行处理。
三、结构化是RAG技术的重要前提和基石
数据结构化是优化RAG系统的基石。通过入库前将非结构化文本转化为结构化数据,可显著提升检索准确率与生成质量。
对于垂直领域(如菜谱、医疗、法律),结构化不仅能改善问答效果,还能支持复杂查询,释放数据的深层价值。
1.数据结构化的三层价值
(1)物理层:文档切片与向量化存储
(2)逻辑层:元数据标注与关系网络
(3)应用层:多维度索引与动态更新
2.结构化数据的的四大类型
(1)问答类:问题答案成对
(2)制度类:按照章/节分段打标签
(3)流程类:按业务节点
(4)合同类:按条款类型
3.数据结构化的形式: TXT 和MarkDown?
关于 RAG(检索增强生成)系统是使用 TXT 还是 Markdown 的结构化,很多粉丝问,也看到很多地方推荐大家使用,但是这个要看情况,使用的工具和源数据不同,那么结果就会不一样,下面我们来分析一下。
(1)文本纯净性
- 干扰符号问题:
Markdown 的语法符号(如 #, **, -, []() 等)可能被误识别为内容语义的一部分,尤其是在处理来源复杂的文档时。就是有的工具他支持Markdown,只是可以读取,并不代表都可以很好的解析。
例如:**重要条款**:员工需在_3个工作日内_提交申请(参见[附件A](#附件))
** 和 _ 可能干扰关键词提取,[附件A](#附件) 的链接结构需要额外处理等。
- 格式噪声过滤:
处理含 Markdown 的文档时:语义理解错误率增加 (因符号冲突),向量化效率降低(需额外清洗步骤)。
(2)系统兼容性
- 跨平台一致性:
TXT 是通用性最强的格式,我们不保证只使用一个工具,避免因 Markdown 解析器差异而导致的内容表现不一致。
- 轻量化处理:
TXT格式平均文件大小较小,占用更少的tockens, 解析也更快速。
(3)检索优化的本质需求
语义聚焦原则:RAG 的核心目标是提取原始语义,而非排版信息。
保留 Markdown 格式可能引入非关键特征,降低检索相关性。
例如:
### **第四章 绩效考核**
1. **考核周期**
- 月度考核(占比70%):每月最后一周完成。
- 年度综合考核(占比30%):次年2月完成。
转换为 TXT
标题1:绩效考核
标题2:考核周期
内容:月度考核(占比70%):每月最后一周完成。年度综合考核(占比30%):次年2月完成。
####
在大多数 RAG 场景中优先使用清洗后的 TXT,确保高效、纯净的语义处理。