RAG知识库数据清洗-结构化数据

京国问道

已于 2025-03-30 11:08:27 修改

阅读量1.1k

点赞数 23

分类专栏：大语言模型文章标签：人工智能

于 2025-03-30 11:05:55 首次发布

本文链接：https://blog.csdn.net/m0_71240768/article/details/146722183

版权

大语言模型专栏收录该内容

10 篇文章

订阅专栏

一、为什么RAG需要结构化数据

这里的结构化是指和数据本身相关的，有限的结构化清洗。

检索增强生成RAG（Retrieval-Augmented Generation）通过从知识库检索相关内容，辅助生成更为准确的答案。所以知识库的数据质量直接决定了RAG的效果。非结构化的数据会导致检索噪声大、语义理解偏差等问题，而结构化的数据能够显著提升检索精度。

二、数据结构化的核心目的

1.解决杂乱数据知识库回答不准的痛点

（1）关键词依赖性强：非结构化文本依赖关键词匹配，容易遗漏语义关联。

（2）冗余信息干扰：文档中的诸多不想关信息会干扰检索的结果。

（3）上下文割裂：一个完整的信息被分割成多段，每段进行独立向量化，最后检索的时候很难把这几段信息找齐。

2.结构化数据的优势

精准语义理解：通过标签化、分类字段，模型能理解数据的深层含义。
高效检索：支持多维度过滤，提升召回率。
可控生成：结构化的知识单元完整，同类同组数据不分割。

3.结构化方法（以pdf为例）

结构化方法是指有限的结构化，需要和使用的工具结合。以pdf文件为例。

（1）PDF文件清洗

由于PDF文件中有表格和图片，第一步进行识别，把表格转化为文本，图片根据需要进行OCR处理。

（2）打标签

给数据打标签，让每个数据信息更全面、完整，这样向量信息就会更准确，检索的准确度自然就更高了。

（3）分块

文本拆分时，尽量不要把同一个主题，同一个完整内容拆开，选择合适的分隔符，对文件进行处理。

三、结构化是RAG技术的重要前提和基石

数据结构化是优化RAG系统的基石。通过入库前将非结构化文本转化为结构化数据，可显著提升检索准确率与生成质量。

对于垂直领域（如菜谱、医疗、法律），结构化不仅能改善问答效果，还能支持复杂查询，释放数据的深层价值。

1.数据结构化的三层价值

（1）物理层：文档切片与向量化存储

（2）逻辑层：元数据标注与关系网络

（3）应用层：多维度索引与动态更新

2.结构化数据的的四大类型

（1）问答类：问题答案成对

（2）制度类：按照章/节分段打标签

（3）流程类：按业务节点

（4）合同类：按条款类型

3.数据结构化的形式: TXT 和MarkDown？

关于 RAG（检索增强生成）系统是使用 TXT 还是 Markdown 的结构化，很多粉丝问，也看到很多地方推荐大家使用，但是这个要看情况，使用的工具和源数据不同，那么结果就会不一样，下面我们来分析一下。

（1）文本纯净性

干扰符号问题：
Markdown 的语法符号（如 #, **, -, []() 等）可能被误识别为内容语义的一部分，尤其是在处理来源复杂的文档时。就是有的工具他支持Markdown，只是可以读取，并不代表都可以很好的解析。

例如：**重要条款**：员工需在_3个工作日内_提交申请（参见[附件A](#附件)）

** 和 _ 可能干扰关键词提取，[附件A](#附件) 的链接结构需要额外处理等。

格式噪声过滤：
处理含 Markdown 的文档时：语义理解错误率增加（因符号冲突），向量化效率降低（需额外清洗步骤）。

（2）系统兼容性

跨平台一致性：

TXT 是通用性最强的格式，我们不保证只使用一个工具，避免因 Markdown 解析器差异而导致的内容表现不一致。

轻量化处理：

TXT格式平均文件大小较小，占用更少的tockens，解析也更快速。

（3）检索优化的本质需求

语义聚焦原则：RAG 的核心目标是提取原始语义，而非排版信息。

保留 Markdown 格式可能引入非关键特征，降低检索相关性。

例如：

### **第四章 绩效考核**  
1. **考核周期**  
- 月度考核（占比70%）：每月最后一周完成。  
- 年度综合考核（占比30%）：次年2月完成。

转换为 TXT

标题1:绩效考核 
标题2:考核周期 
内容:月度考核（占比70%）：每月最后一周完成。年度综合考核（占比30%）：次年2月完成。
####

在大多数 RAG 场景中优先使用清洗后的 TXT，确保高效、纯净的语义处理。