揭开RAG重排序（Rerankers）和两阶段检索（Two-Stage Retrieval）的神秘面纱

Soyoger

于 2024-08-12 09:56:19 发布

阅读量100

点赞数 6

分类专栏：大模型应用落地架构实战文章标签：人工智能 chatgpt 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36330643/article/details/141123425

版权

大模型应用落地架构实战专栏收录该内容

24 篇文章 2 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

一、为什么需要重排序？

检索增强生成（Retrieval Augmented Generation，RAG）技术看似充满无限可能，但在实际应用中，许多人发现构建的RAG系统结果并不尽如人意。

尽管RAG相对容易入门，但要真正掌握其精髓却相当困难。实际上，建立一个有效的RAG系统远不止将文档存入向量数据库并叠加一个大语言模型那么简单。虽然这种方法有时会有效，但并非总能保证成功。

我们知道，RAG 通过在大量文本文档中进行语义搜索来工作，这些文档的数量可能达到数十亿。为了实现大规模搜索的快速响应，我们通常采用向量搜索技术。具体而言，就是将文本转化为向量后，放入一个向量空间内，再通过余弦相似度等度量标准来比较它们与查询向量的相似度。

向量搜索的前提是需要向量，这些向量通常将文本背后的意义压缩成768或1536维的形式，这一过程不可避免地会丢失一些信息。因此，我们常常会发现，即使是排名前三的文档，也可能遗漏了一些关键信息。

在此，我们关注的指标是召回率，即“我们检索到的相关文档的比例”。需要注意的是，召回率不考虑检索到的文档总数。

因此，理论上通过返回所有文档可以实现完美的召回率。然而，这在实际操作中是不可行的，因为大语言模型对可处理的文本量有限制，这个限制称为上下文窗口。

如果较低位置的文

了解本专栏

超级会员免费看

关注

6
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
揭开RAG重排序（Rerankers）和两阶段检索（Two-Stage Retrieval）的神秘面纱

此外，由于查询是在收到后才知道的，双编码器对查询的上下文一无所知（我们是在用户提出查询之前就已经创建了嵌入）。由于重排序器是在用户提出查询时才运行，这让我们能够针对具体查询分析文档的含义，而非仅生成一个泛化的、平均化的含义。然而，这在实际操作中是不可行的，因为大语言模型对可处理的文本量有限制，这个限制称为上下文窗口。第二，尽管大模型拥有高达100K Token的巨大上下文窗口，理论上可以包含大量文档，但我们仍然不能返回所有文档并填满上下文窗口来提高召回率。请注意，这里的文档A实际上等同于我们的查询。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Soyoger 听说打赏的都进了福布斯排行榜。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。