RAG理论：ES混合搜索BM25+kNN(cosine)以及归一化

天然玩家

于 2024-07-07 00:31:42 发布

阅读量611

点赞数 18

分类专栏： # ElasticSearch 文章标签： elasticsearch RAG LLM 混合搜索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xin_101/article/details/140237669

版权

接前一篇:RAG实践：ES混合搜索BM25+kNN(cosine)

https://blog.csdn.net/Xin_101/article/details/140230948

本文主要讲解混合搜索相关理论以及计算推导过程，
包括BM25、kNN以及ES中使用混合搜索分数计算过程。
详细讲解：
（1）ES中如何通过BM25计算关键词搜索分数；
（2）kNN如何通过consine计算语义/向量搜索最终分数，不是直接使用consine距离；
（3）混合搜索最终得分是如何计算的，如何进行归一化优化。

Note：提前声明
下面这张是使用ik分词器进行计算的，为了好截图，后文讲解则是使用默认分词器，
不影响过程分析。

在这里插入图片描述

4 理论

4.1 BM25

BM25(Best Matching 25)匹配算法用于文本检索，其中，25，查阅相关网络资源说是第25次迭代的算法，BM25基于TF-IDF，并进行了改进，引入了可调整参数k1和b。
k1：为饱和函数，防止某额词在文档中出现次数过多导致权重过大；
b：为文档长度因子，使文档长度堆权重的影响不是线性的，更好地适应不同长度的文档。
这也是BM25优点以及缺点的来源：

优点
（1）k1和b，考虑文档长度，可以有效避免文档长度带来的影响；
（2）根据不同领域的数据，可以调整k1和b，获取更好的搜索效果，适应不同领域的数据。
缺点
（1）需要高质量的数据；
（2）参数k1和b直接影响检索效果，需要不断优化调整，以适应具体的场景。

$D)=\sum_{i=1}^{n}IDF(q_{i})·\frac{f(q_{i}, D)·(k_{1}+1)}{f(q_{i}, D)·k_{1}·(1-b+b·\frac{|D|}{avgdl})}$
其中：
$TF(q_{i})=\frac{f(q_{i}, D)·(k_{1}+1)}{f(q_{i}, D)·k_{1}·(1-b+b·\frac{|D|}{avgdl})}$

最低0.47元/天解锁文章

关注

18
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
RAG理论：ES混合搜索BM25+kNN(cosine)以及归一化

（1）ES中如何通过BM25计算关键词搜索分数；（2）kNN如何通过consine计算语义/向量搜索**最终**分数，不是直接使用consine距离；（3）**混合搜索最终得分**是如何计算的，如何进行归一化优化。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

天然玩家 坚持才能做到极致

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。