尽管RAG技术在 LLMs 中具有潜力,但在文本分块方面常常被忽视。文本分块的质量直接影响知识密集型任务的表现。本文提出Meta-Chunking概念,这是一种介于句子和段落之间的文本分割技术,旨在通过逻辑感知来提高文本分割的效率;设计了两种基于LLMs的分块策略:边际采样分块(Margin Sampling Chunking)和困惑度分块(Perplexity Chunking)。此外,还提出了结合Meta-Chunking与动态合并的策略,在不牺牲逻辑连贯性的前提下,实现细粒度与粗粒度文本分块之间的平衡。
一、基本概念
元分块(Meta-Chunking)的概念,用于解决RAG系统中文本分块的问题。具体来说,元分块是指在段落内的一组句子,这些句子之间具有深度的语言逻辑联系。为了实现元分块,论文设计了两种基于LLMs的策略:边际采样分块(Margin Sampling Chunking)和困惑度分块(Perplexity Chunking)。具体来说:
-
Meta-Chunking: Meta-Chunking是指在段落内,由具有深度语言逻辑连接的句子集合构成的文本分块。这种分块方式旨在增强文本分割过程中的逻辑连贯性。
-
边际采样分块: 通过LLMs进行二元分类,判断连续句子是否需要分块,基于边际采样的概率差异做出决策。具体公式如下:
-
困惑度分块: 通过分析每个句子的困惑度(PPL)特征来精确识别文本分块边界。具体公式如下:
困惑度分块公式如下:
其中 表示句子 中的总词数; 表示句子 中的第 个词; 表示句子 中所有在 之前的词; 表示基于前 个词和所有在 之前的词计算得到的第 个词的困惑度
通过分析的分布特征,特别是识别最小值点,来确定潜在的分块边界。
- 动态合并策略: 为了应对不同文本的复杂性,论文提出了一种结合元分块和动态合并的策略,以实现细粒度和粗粒度文本分块的平衡。具体步骤包括:设置初始阈值并进行元分块操作,然后根据用户指定的分块长度迭代合并相邻的元分块,直到总长度满足或接近要求。
二、实验设计
-
数据集: 实验在四个基准数据集上进行,包括中文和英文文本,涵盖简短到长篇文档。数据集包括2WikiMultihopQA、Qasper、MultiFieldQA、MultiHop-RAG等。
-
实验设置:
-
使用Qwen2-1.5B、Internlm2-1.8B、Baichuan2-7B和Qwen2-7B等模型进行元分块。
-
探索了较小模型(如Pythia-0.16B、Pythia-0.41B和Qwen2-0.5B)的适用性和性能。
-
对于较长的文本,采用KV缓存机制在计算PPL时保持句子间的逻辑连贯性,同时避免GPU内存溢出。
-
实验在NVIDIA H800上进行文本分割,在NVIDIA GeForce RTX 3090上进行评估。
-
评估指标: 实验使用了七个关键指标进行评估,包括答案的正确性(如BLEU系列指标、ROUGE-L、BERTScore)、事实性(如F1值)和检索文本的召回率(如Hits@系列指标、MAP@10、MRR@10)。这些指标全面评估了元分块方法在不同任务和文本类型上的性能。
三、结果与分析
- 主要结果: 与基线方法相比,Meta-Chunking在多个数据集上显著提高了单跳和多跳问答任务的性能。例如,在2WikiMultihopQA数据集上,Meta-Chunking比相似性分块提高了1.32的F1值,而时间消耗仅为45.8%。
- 效率与准确性权衡: 边际采样分块方法在使用整个文本块时可以提高性能,但也会增加数据处理时间。相比之下,困惑度分块方法不仅在保持或接近边际采样分块方法的性能水平方面表现出色,还显著提高了处理效率。
- 小模型的性能: 尽管小模型在处理效率上有优势,但在跨语言适应性和性能上存在局限。中等大小的模型(如1.5B参数级别的模型)在性能和效率之间表现出更平衡的性能。
-
重叠分块策略的影响: PPL分块策略在多跳问答场景中表现尤为突出,特别是在单跳任务中,PPL分块策略在所有模型上均实现了2%-3%的性能提升。
-
分块方法的比较: PPL分块方法在BLEU系列指标和ROUGE-L上显著优于传统分块方法,表明其提高了生成文本的准确性和流畅性。
- 重排策略的影响: PPL分块与PPL重排结合的方法在所有指标上均表现最佳,特别是在Hits@8指标上,PPL重排方法在原始分块基础上提高了1.42%,而在PPL分块基础上提高了3.59%。
四、结论
本文提出了Meta-Chunking概念及其实现策略,显著提高了文本分块的效率和准确性。通过结合Meta-Chunking与动态合并策略,能够灵活应对多样化的分块需求。实验结果表明,Meta-Chunking在多个数据集上优于传统的分块方法,并且在性能、时间和计算成本之间取得了更好的平衡。
引用
- https://arxiv.org/pdf/2410.12788
- https://github.com/IAAR-Shanghai/Meta-Chunking
五、最后分享
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】