[RAG]双向渐进式检索策略：small2big——助力RAG提升检索效率与精准度

最新推荐文章于 2025-05-09 07:00:00 发布

Python_金钱豹

最新推荐文章于 2025-05-09 07:00:00 发布

阅读量1.9k

点赞数 23

文章标签：开源人工智能深度学习机器学习 prompt

本文链接：https://blog.csdn.net/Python_cocola/article/details/145057523

版权

背景

1.语义连贯性受损：不当的 chunk 处理可能导致上下文割裂，引发模型产生错误理解和虚假信息。
2.信息完整性缺失：过度压缩可能造成重要信息丢失导致模型无法提供完整准确的回苔。
3.噪声干扰问题：在信息提取过程中可能引入无关信息，影响最终输出的质量和准确性。

提升RAG检索准确性的方法

1.快速定位信息：使用较小的文本块快速定位信息，避免在大量无关文本中进行耗时的全文搜索。
2.逐步扩大检索范围：在保证相关性的同时，获取更完整、更全面的上下文信息，减少由于语义片段化而导致的检索不准问题。
3.有效过滤无关信息：通过从小到大的渐进式检索，过滤掉大部分不相关的文本，减少无关信息对后续生成任务的干扰。

在这里插入图片描述

❝

Advanced RAG重点聚焦在检索增强，也即优化Retrieval阶段。增加了Pre-Retrieval预检索和Post-Retrieval后检索阶段。本期主要关注：Post-Retrieval后检索(如果Chunk召回率和准确率不高，真心建议大家好好理解一下small2big的思想，再搭配不同颗粒度的Chunk，相信你一定能得到不错的效果)

一、small2big 详解

二、最佳实践1：LlamaIndex实现small2big

三、最佳实践2：多路召回后置策略——BRSR(双向递归语义重排序)

一、small2big 详解

在 RAG 召回片段颗粒度角度，"small2big"技术是一种检索优化策略，旨在解决在召回阶段如何平衡召回效率和召回质量的问题。

定义："small2big"检索策略是一种渐进式的多粒度检索方法，它先从小粒度的文本单元（如句子、段落）开始检索，然后逐步扩大检索范围到更大的文本单元（如文档、文档集合），直到获得足够的相关信息为止。
核心思想："small2big"技术的核心思想是首先使用较小、更精细的文本块（chunks）进行嵌入（embedding）和检索（retrieval），以便快速定位信息。找到相关文本块后，再利用较大的文本块为语言模型（LLM）提供更多的上下文信息，以提高回答的准确性和相关性。
实现原理：两种核心方法

1）较小的child chunk指向更大的parent chunk：在检索时先获取到较小的child chunk，然后引用父ID返回较大的parent chunk。
2）Sentence Window Retrieval 句子窗口检索：在检索过程中仅获取一个句子，并返回这个**句子周围（双向递归）**的一段文本，在细粒度层面上类似于child chunk指向parent chunk的概念。

small2big与其他技术的结合

Hybrid Retrieval混合检索：常与混合搜索策略结合使用，即结合语义搜索（基于嵌入相似度）和关键词搜索，以提高检索的准确性和覆盖率。
Abstract embedding摘要嵌入：通过仅对文档的摘要进行快速的 TopK 检索，就能够提供整个文档的大致内容。
Metadata Filtering元数据过滤：通过文档的附加信息(元数据)，比如文件名、作者、发布日期、分类等，来帮助筛选出更相关的文档，有助于提升检索的准确性。
Graph Indexing图数据索引：通过将文本中的关键实体和它们的关系转化为图中的节点和边，从而在处理需要多步逻辑推理的问题时，大大提升了搜索的相关性。

二、最佳实践1：LlamaIndex 实现 small2big

LlamaIndex 实现 “small2big” 的主要方法是通过其灵活的文本分块和嵌入策略，以及递归检索技术。

核心：LlamaIndex 的 Child-Parent RecursiveRetriever 和句子窗口检索

HierarchicalNodeParser 分层节点解析器： LlamaIndex 使用HierarchicalNodeParser 来输出节点的层次结构，从具有较大块大小的顶级节点到具有较小块大小的子节点，其中每个子节点都有一个具有较大块大小的父节点。这种结构允许从细粒度到粗粒度的检索，实现 “small2big” 的转换。

from llama_index.core.node_parser import HierarchicalNodeParser   node_parser = HierarchicalNodeParser.from_defaults()   nodes = node_parser.get_nodes_from_documents(docs)

MetadataReplacementNodePostProcessor 元数据替换后处理器：在检索期间，LlamaIndex 可以使用MetadataReplacementNodePostProcessor 将单个句子替换为包含周围句子的窗口，这对于大型文档/索引最有用，因为它有助于检索更细粒度的详细信息。默认情况下，句子窗口是原始句子两侧各 5 个句子。

from llama_index.core.postprocessor import MetadataReplacementPostProcessor   query_engine = sentence_index.as_query_engine(      similarity_top_k=2,      node_postprocessors=[          MetadataReplacementPostProcessor(target_metadata_key="window")      ])

递归检索： LlamaIndex 支持递归检索，这意味着它不仅探索最直接相关的节点，还探索节点关系到额外的检索器/查询引擎并执行它们。这种递归检索的概念允许从较小的文本块开始，然后根据需要扩展到更大的文本块。
自动检索技术： LlamaIndex 的VectorIndexAutoRetriever 模块接受VectorStoreInfo，其中包含矢量存储集合及其支持的元数据过滤器的结构化描述。然后，该信息将用于自动检索提示，其中 LLM 推断元数据过滤器，实现从小块到大块的检索。

通过这些技术，LlamaIndex 能够灵活地处理不同大小的文本块，从细粒度的小块开始，根据检索需求逐步扩展到更大的文本块，实现 “small2big” 的检索策略。

三、最佳实践2：多路召回后置策略——BRSR

多路召回后置策略：双向递归语义重排序

“Post-processing Strategy for Multi-path Recall with Bidirectional Recursive Semantic Reordering”

缩写：BRSR，双向递归语义重排序，Bidirectional Recursive Semantic Reordering

缩写：MRPS，多路召回后置策略，Multi-path Recall Post-processing Strategy

概述： BRSR 是一种针对 RAG 多路召回后置优化的方法，通过双向递归遍历机制扩充文本片段的上下文信息，确保了足够的语境支持；通过 ChunkID 复原原文语义顺序，维护了文本块的语义连贯性；采用二次滑动窗口切片并去重，提高了文本块的质量和唯一性；最后使用 Rerank 模型对结果进行重排序，精选出 Top10 文本块。整个过程有效解决了多路召回后 chunk 内容杂乱无序和语义不连贯的问题，提升了最终 RAG 召回的质量，提高召回率。
核心思想和特点

Post-processing Strategy：表明是一个后置处理策略；
Multi-path Recall Optimization：突出多路召回策略之后的优化；
Bidirectional Recursive Semantic Reordering：强调了双向递归和语义重排序的关键技术。

核心步骤

1）双向递归遍历扩充上下文信息：使用标题位和大语言模型（LLM）上下文 Tokens 的长度限制，通过双向递归遍历机制来扩充文本片段的上下文信息。这一步骤确保每个文本片段都带有足够的前后文信息，以增强其语义完整性。最终选出Top256个相关的上下文Token。
2）复原原文语义顺序（粗排序）：使用ChunkID标识符来追踪和恢复原始文本的正确顺序。这有助于在后续处理中保持内容的连贯性和逻辑性。
3）二次滑动窗口切片与去重：应用二次滑动窗口技术对已扩充上下文信息的文本进行切片，生成更适合的、易于管理的文本块（chunks）。同时进行去重处理，以去除重复的信息，确保各文本块的唯一性。
4）重排序Top10（精排序/Compress压缩/Fusion融合）：利用Rerank模型根据相关性和质量对文本块进行评估，并从中选择最优质的Top10文本块进行最终展示或进一步处理。（Top10 的初衷是剔除相关性较低的上下文，降低冗余信息对 LLM 对噪声干扰）

实现原理

1）初始化全局变量
设定需要召回的片段数量 k。
确定LLM支持的最大上下文Token长度（作为最终上下文长度的上限阈值）。
2）属性值记录：
对每个 one_chunk，提取并记录其所属文档的联合唯一标识符（ds_id+file_id），以及其它可能影响排序的相关属性。
3）初始化片段集合：
收集所有相关的基础片段形成初步的数据集。
4）双向递归上下文扩充：
以 one_chunk 为中心，分别向前和向后递归遍历，直到遇到标题位或达到预设的上下文Token长度为止。这一步骤旨在围绕原始片段构建一个更丰富的上下文语境，最大限度的保证上下文的完整性。
5）去重与排序：
合并递归过程中收集的所有片段，去除重复项，并按照原始文档中的 ChunkID 升序排列，以尽可能复原上下文顺序，最大限度保证语义连贯性。
6）二次滑动窗口切片：
使用固定大小为512 tokens的窗口对合并后的上下文进行二次切片，滑动步长为128 tokens。这样可以确保每个切片都含有部分重叠的内容，从而保持上下文连贯性。
7）Rerank重排：
将上述处理得到的上下文chunks与用户提出的问题一同输入至rerank模型中进行排序评估。
8）选取Top-N：
根据rerank模型输出的结果，选择排序最靠前的Top10上下文chunks作为最终输出，提供给后续的分析或回答生成模块。

❝

这种策略巧妙结合了双向递归、上下文扩展和二次滑窗切分技术，有效提升了召回内容的质量和相关性，特别适用于 RAG 系统需要深度文本理解和精确召回的应用场景。【欢迎加入技术交流群讨论】

四、总结

"small2big"技术是一种用于优化检索增强生成（RAG）模型的检索策略，旨在平衡召回效率与质量。通过先检索小粒度文本块快速定位信息，随后逐步扩大到大粒度文本块以获取完整的上下文信息，从而提升回答的相关性和准确性。该策略还结合了混合检索、摘要嵌入、元数据过滤及图数据索引等多种技术，以实现更高效的检索，并有效过滤不相关信息，确保最终输出的质量。另外还看了LlamaIndex 在 small2big 方面的实现，以及多路召回后置策略——BRSR(双向递归语义重排序)。

优势

提高检索效率：通过先检索小粒度单元，可以快速锁定相关信息的大致位置，避免了在大量无关文本中进行耗时的全文搜索。
提高检索准确性：通过逐步扩大检索范围，可以在保证相关性的同时，获取更完整、更全面的上下文信息，减少由于语义片段化而导致的检索不准问题。
减少无关信息：通过从小到大的渐进式检索，可以有效过滤掉大部分不相关的文本，减少无关信息对后续生成任务的干扰。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述