es的相关性算分-BM25算法：词频超过一定数量，超过的那部分不进行算分

最新推荐文章于 2023-12-15 18:38:43 发布

VIP文章 Hiber12

最新推荐文章于 2023-12-15 18:38:43 发布

阅读量1.6k

点赞数

分类专栏：数据库文章标签： elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hiber12/article/details/111351158

版权

在这里插入图片描述
相关性算分：指文档与查询语句间的相关度，通过倒排索引可以获取与查询语句相匹配的文档列表

如何将最符合用户查询需求的文档放到前列呢？
本质问题是一个排序的问题，排序的依据是相关性算分，确定倒排索引哪个文档排在前面

影响相关度算分的参数：
1、TF(Term Frequency)：词频，即单词在文档中出现的次数，词频越高，相关度越高
2、Document Frequency(DF)：文档词频，即单词出现的文档数
3、IDF(Inverse Document Frequency)：逆向文档词频，与文档词频相反，即1/DF。即单词出现的文档数越少，相关度越高（如果一个单词在文档集出现越少，算为越重要单词）
4、Field-length Norm：文档越短，相关度越高

——TF/IDE模型
在这里插入图片描述

——BM25模型（5.X之后的默认模型）
对之前算分进行优化

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
es的相关性算分-BM25算法：词频超过一定数量，超过的那部分不进行算分

相关性算分：指文档与查询语句间的相关度，通过倒排索引可以获取与查询语句相匹配的文档列表如何将最符合用户查询需求的文档放到前列呢？本质问题是一个排序的问题，排序的依据是相关性算分，确定倒排索引哪个文档排在前面影响相关度算分的参数：1、TF(Term Frequency)：词频，即单词在文档中出现的次数，词频越高，相关度越高2、Document Frequency(DF)：文档词频，即单词出现的文档数3、IDF(Inverse Document Frequency)：逆向文档词频，与文档词频相反，.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。