一文搞清楚RAG（检索增强生成）文档分块（Chunking）的 5 种实现方法与选型策略

原创于 2025-07-15 14:44:55 发布 · 696 阅读

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #深度学习 #人工智能 #transformer #大模型入门 #大模型 #RAG

在检索增强生成（RAG）系统中，文档分块（Chunking）是连接信息检索与生成模型的关键环节。合理的分块策略能让检索更精准、生成更贴合上下文，而不当的分块可能导致语义割裂或信息冗余。本文将系统介绍 5 种主流的分块实现方法，并结合实际场景提供选型策略。

1、固定大小分块（Fixed-size chunking）

这是最基础的分块方式，通过预设字符数、token 数或句子数切割文档。例如设定每块包含 500 个字符，超出则截断，同时可设置重叠部分（如 50 字符）避免语义割裂。

实现原理：基于字符串长度或 token 计数的机械切割，无需理解文本内容，常见于 LangChain 的RecursiveCharacterTextSplitter基础模式。

优点：实现简单，计算成本极低，适合结构简单、语义分散的文本（如新闻资讯、短评）。

缺点：可能粗暴切断完整语义单元（如拆分一个数学公式、法律条款），在长句密集或专业术语多的文本中表现差。

适用场景：快速原型开发、非结构化且无明显逻辑层次的文本（如社交媒体动态、短消息）。

2、语义分块（Semantic chunking）

基于文本语义关联性切割，通过 NLP 模型识别句子、段落间的语义相似度，将关联紧密的内容归为一块。例如用 Sentence-BERT 计算句子向量相似度，当相似度低于阈值时拆分。

实现原理：借助预训练语言模型（如 BERT、Sentence Transformers）提取文本语义特征，通过聚类或相似度阈值划分边界。

优点：最大程度保留语义完整性，适合长文本逻辑连贯的场景（如论文、小说）。

缺点：依赖 NLP 模型精度，计算成本高，对非连续语义文本（如表格、代码）效果有限。

3、递归分块（Recursive chunking）

递归分块是一种逐步细化的分块方法。先将整个文档视为一个大块，依据固定长度、语义相似度等规则分割成小块，若分割后的块仍满足分割条件，则继续递归分割，直至得到符合要求的块。

实现原理：类似于分治算法，不断将大块分割成小块，逐步实现理想的分块大小和语义完整性。分割时可结合多种规则，如先按固定长度初步分割，再对语义不完整的块通过语义分析调整。

优点：

能在一定程度上平衡分块大小和语义完整性，通过逐步细化让分块结果更合理。
适应性较强，可根据不同文档特点调整分割规则和阈值。

缺点：

实现逻辑相对复杂，需设计合理的递归终止条件和分割规则，否则易出现分块过细或过粗问题。
处理效率受影响，尤其对于复杂文档，递归过程会消耗较多计算资源。

适用场景：适用于文档内容结构复杂，且对分块的大小和语义完整性都有一定要求的场景，如综合性报告、多主题的文档等。

4、基于文档结构分块（Document structure-based）

基于文档结构分块是依据文档自身结构特征进行分块的方法，利用标题、章节、段落、列表等结构信息作为分块依据。

实现原理：通过解析文档格式信息（如 HTML、PDF、Word 等格式中的标签、样式），识别结构元素，按元素分块，例如以章节或段落为单位。

优点：

充分利用文档天然结构，分块结果与逻辑结构一致，便于理解和使用。
保证块的结构完整性，减少信息割裂可能性。

缺点：

对结构不清晰或无明显结构的文档（如纯文本文件）适用性差。
不同格式文档结构解析方法不同，增加实现复杂性。

适用场景：适用于具有清晰结构的文档，如论文、书籍、规范文件等。

5、基于LLM分块（LLM-based chunking）

将文档输入到大型语言模型（LLM）中，通过提示词引导 LLM 对文档进行分析，依据文档语义、主题变化等因素，识别分块点并分割文档。

优点：

分块效果好：能深入理解文档深层语义和上下文关系，分块结果契合人类理解与需求。
适应性强：可处理各类、各复杂度文档，对语义复杂、结构不清晰的文档也有良好分块效果。

缺点：

资源依赖高：依赖大型语言模型，消耗大量计算资源，处理成本高。
处理速度慢：不适合大规模文档快速处理。
受提示词影响：分块结果受提示词设计影响，需精心设计提示词才能达理想效果。

适用场景：适用于对分块效果要求极高，对处理成本和速度要求不高的场景，如重要研究报告、复杂法律文档等。

6、技术选型建议

推荐首选

语义分块（多数场景效果最佳，但需业务测试）。
关键考量

内容性质、嵌入模型能力、计算资源等。
总结对比表

7、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】