《RAG之文本分块策略指南》：常见策略、前沿项目推荐、策略如何选择

最新推荐文章于 2025-04-18 09:56:50 发布

程序员笑武

最新推荐文章于 2025-04-18 09:56:50 发布

阅读量1.3k

点赞数 19

文章标签：语言模型知识图谱自动化人工智能剪枝

本文链接：https://blog.csdn.net/m0_59164304/article/details/144443595

版权

本文详细介绍了关于常见的文本分块策略、推荐了6个关于文本分块的前沿项目、如何选择合适分块策略。总的来说，合适的文本分块策略是提升RAG系统性能的关键因素之一，需根据实际情况进行精心选择和优化。

一、引言

如何在检索增强生成（RAG）系统中优化文本分块策略，以提高检索和生成质量。具体来说，研究如何在长文本向量化和处理中保持语义完整性，提升检索准确率和生成质量。

1.1 研究难点

文本分块过长的影响：导致语义模糊、降低召回精度和输入受限。
文本分块过短的影响：导致上下文缺失、主题信息丢失和信息碎片化问题。
长文本向量化的挑战：包括语义信息稀释、计算开销增大和检索效率降低。

可得出结论：合理的分块策略可以提高检索准确率和系统性能，增强大模型的回答质量。

1.2 相关工作

基于规则的文本分块方法（如固定大小分块、重叠分块）
基于LLM的文本分块方法（如基于Embedding的文本分块、基于LLM的文本分块）。

1.3 文本分块策略的优化方向

保持语义完整性：避免句子拆分、考虑段落关联性。
控制文本块长度：设定合理的长度阈值、动态调整。
重叠切分：引入重叠部分以保留上下文连接。
结合向量化模型性能：适配模型特性，优化向量表示。
考虑 LLM 输入限制：控制输入长度，优先级排序，内容精炼。

二、文本分块策略

本文提出多种文本分块策略旨在解决RAG系统中的文本处理问题。

2.1 常用的文本分块策略

（由于排版问题改为截图，如果看不清可后台私信）

2.2 上述切分策略的总结概括

2.3 详解：基于 Model-based 的语义切分策略

文本切分方法从最初的基于 BERT 的朴素方法逐渐演进，通过引入更长的上下文（如Cross-Segment模型）和建模句子间依赖关系（如SeqModel模型），不断优化性能。这些改进不仅提升了文本切分的准确性，也增加了处理大规模文本的效率。持续探索和创新，旨在提供更精准的文本切分解决方案，满足实际应用需求。

Cross-Segment：https://arxiv.org/abs/2004.14535
SeqModel：https://arxiv.org/abs/2107.09278

2.4 详解：基于 LLM-based 的语义切分策略

利用 LLM 生成 proposition，通过构建提示词并与 LLM 交互来获取文本的 proposition。

来自论文：《Dense X Retrieval: What Retrieval Granularity Should We Use?》
https://arxiv.org/abs/2312.06648
论文提出了一种新的检索单位：proposition，即文本中的原子表达式(atomic expressions)，用于表示独特的事实/概念/主题，具有独立性和完整性。为了获取这些 propositions，文章描述了通过构建特定的提示词与 LLM 交互的方法。
LlamaIndex 和 Langchain 实现了基于 LLM 的算法来生成 propositions。其软件包允许将文档分割成节点，然后生成 propositions 来创建更小的子节点，最终构建一个矢量存储索引。递归检索器会首先尝试在较小的数据块中查找信息，如果不够，则扩大范围至更大的数据块，以确保找到完整的信息。
另外 propositions 可以用来微调文本生成模型，这种方法能够实现更加精细的数据分块，并形成从细粒度到粗粒度(small-to-big)的索引结构，为语义分块提供了新方法。

三、推荐6个【关于文本切分】前沿项目

1【Chonkie】（2024-11-24、Github 1.8k star、有官网）
Chonkie是为RAG任务设计的轻量级文本分块库，以快速性能和易用著称，旨在解决传统文本分块库的效率和体积问题。
实现原理：通过 Tiktoken、预计算缓存等技术实现高效分块，性能远超竞争对手。
2【Late Chunking】：（2024-10-8、Github 268 star）
先进行全面处理再分类整理，利用长上下文Embedding模型切分块。
根据官方实验证明：文档越长，后置分块(Late Chunking)策略就越有效。

了解更多：

https://jina.ai/news/late-chunking-in-long-context-embedding-models/
https://jina.ai/news/what-late-chunking-really-is-and-what-its-not-part-ii/
https://arxiv.org/abs/2409.04701
https://github.com/jina-ai/late-chunking
博客：https://jina.ai/news/late-chunking-in-long-context-embedding-models/
https://colab.research.google.com/drive/15vNZb6AsU7byjYoaEtXuNu567JWNzXOz?usp=sharing
3【ChunkRAG】（2024-11-19）
ChunkRAG显著改进：块级别过滤和细粒度相关性评估。将文本划分为语义上有意义的块，减少了生成不相关或幻觉信息的情况。在处理块过滤的上下文中相关数据时，生成的事实准确且连贯的响应得到了显著提高。
4【Meta-Chunking】：（2024-11-25、Github 87 star）
一种介于句子和段落之间颗粒度的文本分割技术，旨在通过“逻辑上连贯”来提高文本分割的效率；
引入新的粒度，基于LLMs的分块策略：边际采样分块（Margin Sampling Chunking）和困惑度分块（Perplexity Chunking）和动态合并策略。
5【Anthropic】 (2024.9.20)：上下文检索策略，增加全局上下文。
Anthropic的方法本质上是一种上下文丰富策略，通过将每个文本块与完整的文档一起发送给LLM，并让LLM为每个块添加相关上下文，从而生成信息更丰富的embedding。
这种方法在成本、时间和存储方面较为昂贵，但它能够有效地解决上下文丢失的问题，并且在理论上能够适应块边界，尽管这一点在实际应用中可能还需要进一步验证和优化。
了解更多：https://www.anthropic.com/news/contextual-retrieval、https://github.com/anthropics/anthropic-cookbook
6【SLM-qwen0.5】：Small Language Model包括simple-qwen-0.5、topic-qwen-0.5和summary-qwen-0.5，分别针对不同需求进行分块。
https://huggingface.co/jinaai/text-seg-lm-qwen2-0.5b
https://huggingface.co/jinaai/text-seg-lm-qwen2-0.5b-cot-topic-chunking
https://huggingface.co/jinaai/text-seg-lm-qwen2-0.5b-summary-chunking

SLM-qwen0.5 实现步骤：   1. **模型类型**：     - **simple-qwen-0.5**：基于文档的结构元素识别边界，简单高效，适合基本的分块需求。     - **topic-qwen-0.5**：受到思维链推理的启发，识别文本中的主题来定义分块边界，适合处理复杂的多主题文档。     - **summary-qwen-0.5**：不仅能识别文本边界，还能为每个文本块生成摘要，适合长文档问答任务。   2. **文本块头部提取**：     - 这些模型只返回文本块的头部，即每个文本块的截断版本，不生成完整的文本块。     - 输出关键点或子主题，通过文本的语义转换更准确地识别边界，保证文本块的连贯性。   3. **检索过程**：     - 在检索时，根据文本块头部进行索引，找到对应的完整片段。     - 先用头部做索引，再根据索引重建完整片段，提高检索精准度和效率，避免处理冗余信息。   4. **数据增强**：     - 对数据添加噪声，包括打乱数据、插入随机字符/单词/字母、随机删除标点符号、去除换行符等。     - 使用 GPT-4o 生成代码、公式和列表，丰富数据集，提升模型处理结构化内容的能力。   通过上述步骤原理，SLM--qwen0.5 能够高效地进行文本分块，并生成连贯的文本块摘要，适用于 RAG 应用中的长文档问答任务。

四、结果对比分析

Jina vs qwen0.5：Jina Segmenter API 的分块非常细粒度，但上下文信息较少。simple-qwen-0.5、topic-qwen-0.5 和 summary-qwen-0.5 能够根据语义结构和主题进行分块，生成更连贯的文本块。
Late Chunking：后期分块方法能够保留更多的上下文信息，生成的文本块更加完整和贴切。实验结果显示，后期分块在检索和生成质量上优于传统方法。
不同分块策略的效果对比：固定大小分块和基于 NLTK 的分块在上下文信息保留和语义完整性方面表现较差。基于 spaCy 的分块和特殊格式文本分块效果较好，但仍不如后期分块方法。LLM-based 方法生成的文本块在连贯性和准确性上表现优异，但计算开销较大。

五、在实际应用中，如何选择合适分块策略？

六、总结

本文总结了多种文本分块策略在 RAG 系统中的应用，以及文本分块策略在RAG系统中的重要性，分析了现有方法的局限性，并介绍了几种前沿的分块方法，并提出了优化文本分块的方法。合理的文本分块策略不仅能提高检索和生成的质量，还能增强大模型的回答能力。未来的研究可以进一步探索更高效的分块方法，以适应多样化的应用场景。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述