RAG混合检索:掌握倒数秩融合RRF多维度提升检索结果评分的秘诀

倒数排名融合 (RRF) 是一种算法,可评估多个以前的排名结果中的搜索分数以生成统一的结果集。在RAG搜索中,每当并行执行两个或更多个查询时,都会使用 RRF。每个查询都会生成一个排名结果集,RRF 可用于将排名合并和同质化为单个结果集,在查询响应中返回。始终使用 RRF 的示例方案包括混合搜索和并行执行的多个矢量查询。

RRF 基于倒数排名的概念,即搜索结果列表中第一个相关文档的排名的倒数。 该方法的目标是考虑项目在原始排名中的位置,并赋予在多个列表中排名较高的项目更高的重要性。这有助于提高最终排名的整体质量和可靠性,使其对融合多个有序搜索结果的任务更加有用。

RRF 算法详解

检索增强生成(RAG)是一种将检索模型和生成模型优势结合起来的强大自然语言处理技术。RAG 系统的成功在很大程度上取决于检索阶段的表现,如果检索器无法找到相关文档,系统的精度就会降低,并增加生成内容出现幻觉的可能性。

在处理查询时,一些更适合使用基于关键字的检索技术(如 BM25),而其他则可能在使用语言模型嵌入的密集检索方法中表现更好。混合检索技术旨在弥补这两种方法的不足。而倒数秩融合(RRF)作为一种排名聚合方法,可以将多个检索模型的排名合并,生成一个统一的排名结果。

RRF 算法原理

RRF 是一种用于组合多个来源排名的聚合方法,特别是在 RAG 系统中应用时,不同的检索模型会生成不同的文档排名,RRF 将这些排名融合为一个统一的结果。

RRF的工作流程
  1. 用户查询:用户输入一个查询。

  2. 多重检索器:查询被发送到多个检索器,这些检索器可能使用不同的检索模型(如密集检索、稀疏检索、混合检索)。

  3. 独立排名:每个检索器对相关文档进行排名。

  4. RRF 融合:使用 RRF 公式将所有检索器的排名结果合并。

  5. 生成最终排名:根据 RRF 分数生成一个统一的文档排名。

  6. 生成答案:生成模型使用排名最高的文档生成最终答案。

RRF背后的数学直觉

  1. 倒数排名:RRF 通过 1/(rank + k) 的公式,给排名靠前的文档更多的权重,这确保了在多个检索器中排名靠前的文档在最终排名中被优先考虑。

  2. 收益递减:随着排名的增加,分数的贡献呈非线性递减。这反映了排名 1 和 2 之间的相关性差异通常比排名 100 和 101 之间的差异更大。

  3. 排名聚合:通过对所有检索器的倒数秩求和,RRF 能够有效地结合多个来源的证据,使得最终排名更稳健,并且减少了单个检索器的偏见对结果的影响。

  4. 归一化:常数 k 作为平滑因子,防止任何单个检索器对结果的主导,并有助于更优雅地处理低排名项目中的平局。

k 值的选择

RRF 中常用的 k 值为 60,这一选择背后有几个原因:

  1. 实证表现:k = 60 在各种数据集和检索任务中表现良好。

  2. 平衡影响力:这个值在高排名和低排名项目的影响之间提供了良好的平衡。

  3. 有效的平局:k = 60 有助于在低排名项目中有效打破平局。

  4. 鲁棒性:该值在不同类型的检索系统和数据分布中表现出很强的鲁棒性。

尽管 k = 60 是常用的选择,但最佳值可能因具体应用和数据特性而异。某些系统可能需要调整这个参数以获得更好的表现。

RRF的应用

RRF 通过融合多个检索模型的排名结果,在 RAG 系统中表现出色。其数学原理确保了生成的文档排名具有稳健性,并且可以根据实际应用需求进行调整。

score = 0.0``for q in queries: # loop over queries send to different search engines ``    if d in result(q):`        `score += 1.0 / ( k + rank(result(q), d))``return score``   ``# where``# k is a ranking constant``# q is a query in the set of queries``# d is a document in the result set of q``# result(q) is the result set of q``# rank( result(q), d ) is d's rank within the result(q) starting from 1
def reciprocal_rank_fusion(queries, d, k, result_func, rank_func):`    `return sum([1.0 / (k + rank_func(result_func(q), d)) if d in result_func(q) else 0 for q in queries])

结论

RRF 是 RAG 系统中一种强大的排名聚合工具,通过有效结合多个检索器的排名结果,它能够生成更加稳健和相关的文档排名。掌握 RRF 的原理和应用能够帮助从业者更好地在他们的系统中实现和优化这一技术。


最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试,不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

在这里插入图片描述
如有侵权,请联系删除。

  • 8
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值