Meta-Chunking：一种用于提高RAG性能的文本分割技术-CSDN博客

本文链接：https://blog.csdn.net/star_nwe/article/details/143992929

尽管RAG技术在 LLMs 中具有潜力，但在文本分块方面常常被忽视。文本分块的质量直接影响知识密集型任务的表现。本文提出Meta-Chunking概念，这是一种介于句子和段落之间的文本分割技术，旨在通过逻辑感知来提高文本分割的效率；设计了两种基于LLMs的分块策略：边际采样分块（Margin Sampling Chunking）和困惑度分块（Perplexity Chunking）。此外，还提出了结合Meta-Chunking与动态合并的策略，在不牺牲逻辑连贯性的前提下，实现细粒度与粗粒度文本分块之间的平衡。

一、基本概念

元分块（Meta-Chunking）的概念，用于解决RAG系统中文本分块的问题。具体来说，元分块是指在段落内的一组句子，这些句子之间具有深度的语言逻辑联系。为了实现元分块，论文设计了两种基于LLMs的策略：边际采样分块（Margin Sampling Chunking）和困惑度分块（Perplexity Chunking）。具体来说：

Meta-Chunking: Meta-Chunking是指在段落内，由具有深度语言逻辑连接的句子集合构成的文本分块。这种分块方式旨在增强文本分割过程中的逻辑连贯性。
边际采样分块: 通过LLMs进行二元分类，判断连续句子是否需要分块，基于边际采样的概率差异做出决策。具体公式如下：
困惑度分块: 通过分析每个句子的困惑度（PPL）特征来精确识别文本分块边界。具体公式如下：

困惑度分块公式如下：

其中表示句子中的总词数；表示句子中的第个词；表示句子中所有在之前的词；表示基于前个词和所有在之前的词计算得到的第个词的困惑度

通过分析的分布特征，特别是识别最小值点，来确定潜在的分块边界。

动态合并策略: 为了应对不同文本的复杂性，论文提出了一种结合元分块和动态合并的策略，以实现细粒度和粗粒度文本分块的平衡。具体步骤包括：设置初始阈值并进行元分块操作，然后根据用户指定的分块长度迭代合并相邻的元分块，直到总长度满足或接近要求。

二、实验设计

数据集: 实验在四个基准数据集上进行，包括中文和英文文本，涵盖简短到长篇文档。数据集包括2WikiMultihopQA、Qasper、MultiFieldQA、MultiHop-RAG等。
实验设置:
使用Qwen2-1.5B、Internlm2-1.8B、Baichuan2-7B和Qwen2-7B等模型进行元分块。
探索了较小模型（如Pythia-0.16B、Pythia-0.41B和Qwen2-0.5B）的适用性和性能。
对于较长的文本，采用KV缓存机制在计算PPL时保持句子间的逻辑连贯性，同时避免GPU内存溢出。
实验在NVIDIA H800上进行文本分割，在NVIDIA GeForce RTX 3090上进行评估。
评估指标: 实验使用了七个关键指标进行评估，包括答案的正确性（如BLEU系列指标、ROUGE-L、BERTScore）、事实性（如F1值）和检索文本的召回率（如Hits@系列指标、MAP@10、MRR@10）。这些指标全面评估了元分块方法在不同任务和文本类型上的性能。