RAG 的优化进阶与引入 Reranker

三余知行

已于 2024-08-05 23:40:47 修改

阅读量1.5k

点赞数 35

分类专栏：「数智通识」「机器学习」文章标签： AIGC GenAI RAG Reranker LLM

于 2024-08-03 10:27:22 首次发布

本文链接：https://blog.csdn.net/ChaoMing_H/article/details/140883158

版权

「数智通识」同时被 2 个专栏收录

46 篇文章

订阅专栏

「机器学习」

30 篇文章

订阅专栏

引言

在简单的 RAG 系统中，通过结合检索和生成技术，已经可以显著提升了对复杂查询的响应质量。Reranker 作为 RAG 系统中一个关键的进阶组件，通过对原 RAG 中检索到的内容进行重新组织，可以进一步提高系统的准确性。

本文将深入探讨 RAG 系统的优化方式，其中会着重介绍 Reranker 技术的基本工作原理、评估方法、优点与局限以及在 RAG 系统中的应用。

RAG 优化分析

RAG 系统的核心是检索（Retrieval）与增强生产（Augmentation & Generation），因此优化的方向可以从检索质量和增强生产效果这两个方面入手。

请添加图片描述

检索质量

总体而言，RAG 系统的检索质量是局限于索引构建阶段和向量索引算法的。其中索引构建阶段往往是既定的全局且粗粒度的方式，其优化层度将极大的决定 RAG 检索的精度和召回效果。常见的优化手段有添加滑动窗口、数据清洗等（索引构建发生在 Retrieval 之前，此处将之归入 Pre-Retrieval 阶段）。

滑动窗口：在将原始数据切分成数据块时，允许相邻数据块之间的首尾各重叠部分，如要将"abcdef"切分成长度为 3 的块，可以允许 1 字符的重叠，那么滑动窗口的切分结果就是：[“abc”, “cde”, “ef”]（不允许重叠的切分结果则是：[“abc”, “def”]）。这样可以一定层度保障数据块信息及其索引的完整性，从而提升召回率。
数据清洗：清洗掉不相关的、过时的、不准确的、冗余的信息。

另一方面是向量索引算法方面的优化，对向量索引算法直接进行深入研究和优化往往是不划算的，我们只需要了解这些算法的特性，在不同的场景选择合适的算法及其用法，就能起到很好的优化效果。常见的优化方式是定制 Embedding Model、采用动态 Embedding Model、进行混合搜索等（此处向量索引算法对应了向量数据库对索引数据的存储和开放检索的能力，归入 Retrieval 阶段正好合适）。

定制 Embedding Model：针对特定领域，使用领域相关的数据对 Embedding Model 进行微调，增强向量转换准度。
动态 Embedding Model：基于 Transformer 架构的 Embedding Model，因为其注意力机制的存在，模型在将词转换为向量时，可以注意到词所处的上下文信息，从而动态的调整词准确的含义。
混合搜索：同时使用关键词过滤和向量相似度搜索两种检索模式，其中关键词可以准确且“硬性的”排除一些不相关内容，而向量相似度搜索则基于对内容的“理解”去筛选最相关的内容，结合了两者优势。

增强生成效果

RAG 系统的增强生成是指将检索到的内容与原始提示整合成更优的提示，将此提示传给 LLM，令 LLM 生成的内容质量提升。这一步中“整合”的优劣，也将极大影响 LLM 最终生成结果的质量（整合实际发生在 Augmentation & Generation 之前，Retrivial 之后，因此可以将这一过程归入 Post-Retrivial 阶段）。

整合环节往往从提示与检索内容的相关性、连贯性、冗余度等方面进行优化，常用的方式是Prompt 压缩、Reranking 等。

Prompt 压缩：与检索阶段的数据清洗类似，移除无关内容和冗余内容等，突出最相关内容。
Reranking：引入 Reranker 模型，增加知识检索范围，比如多路召回，然后对检索到的内容进行相关性排序和筛选，提升检索内容的相关性。

引入 Reranker

上文提到优化增强生产效果的方式有一种是引入 Reranker 模块。Reranker 在信息检索方面所扮演的角色以及产生的效果相当重要，关于 Reranker 的研究和落地也是一个不小的课题，因此这里有必要进一步探索一下。

Reranker 实现方式

在 RAG 系统中，Reranker 模块对检索到的内容与原始提示进行相关度评估，并给出其排序的结果，可以将知识检索范围设置成多路，如此便可以更广泛、更精细地把控最终检索到的内容，从而提高了 RAG 系统的性能。

Reranker 模块可以直接是一个基于加权得分算法的统计方法，也可以是用深度学习模型训练得到端到端（提示和检索内容到得分）的模型。

统计方法：将多路召回的相识度按照一定的权重计算得分，这种方式的很明确，延迟影响也很小。
深度学习模型：神经网络可以很好的分析输入之间语义的相关性，并以得分的形式直接输出，这种方式一定程度上是直接基于语义理解得出的最相关性，具有“柔性”的优点，而且不受多路召回中内容原始相对位置的影响。

Reranker 性能评估

Reranker 的性能通常通过命中率和平均倒数排名这两个指标进行评估。

命中率（Hit Rate）：检索到的文档中找到正确答案的查询所占的比例。
平均倒数排名（Mean Reciprocal Rank, MRR）：所有查询中正确答案排名的倒数的平均值。如果第一个相关文档就是搜索结果的第一位，那么倒数就是 1；如果是第二位，倒数就是 1/2，以此类推。

Hit Rate 和 MRR 也是 Embedding Model 的评估指标，我们可以在不使用 Reranker 的场景下评估 Embedding Model 的这两个性能值，然后再适配不同的 Reranker 模型进行整体性能评估，最终找到综合得分最好的 Embedding + Reranker 组合。