Elasticsearch系列---相关性评分算法及正排索引

最新推荐文章于 2024-07-27 20:19:46 发布

1黄鹰

最新推荐文章于 2024-07-27 20:19:46 发布

阅读量1.6k

点赞数

分类专栏： java se 文章标签： elasticsearch 评分算法正排索引

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dailywater/article/details/103839983

版权

本文介绍了Elasticsearch的相关性评分算法，包括Boolean Model、TFNORM/IDF，深入讲解TFNORM和IDF的计算方式。同时，探讨了多个term查询的Lucene公式，并通过explain参数展示了文档匹配的过程。此外，文章还讨论了正排索引的作用、应用场景及其性能特点。

摘要由CSDN通过智能技术生成

概要

上一篇中多次提到了按相关性评分，本篇我们就来简单了解一下相关性评分的算法，以及正排索引排序的优势。

评分算法

Elasticsearch进行全文搜索时，Boolean Model是匹配的基础，先用boolean model将匹配的文档挑选出来，然后再运用评分函数计算相关度，参与的函数如我们提到的TF/IDF、Length Norm等，再加上一些控制权重的参数设置，得到最后的评分。

Boolean Model

作为全文搜索的基础，Boolean Model的结果决定文档是否要进行下一步的评分操作，使用AND、OR、NOT这种逻辑操作符来判断查找的文档，整个过程不评分，非常快速地将匹配的文档筛选出来。

由于Elastisearch各个版本相关度评分算法有异同，我们以6.3.1版本的BM25算法为准。

TFNORM/IDF

由Boolean Model之后得到的文档，我们开始计算文档的评分，每个文档的评分取决于每个关键词在文档中的权重，权重我们会从以下几个方面考虑：

TFNORM

即词频长度(Term Frequency Norm)，单个term在文档中出现的频率，并结合字段长度，出现次数越高，字段长度越低，分越高，计算公式：

tfNorm(t in d) = (freq * (k1 1)) / (freq k1 * (1 - b b * fieldLength / avgFieldLength))

词t在文档d的词频(tf)：freq表示出现频率，k1、b为ES参数，fieldLength为该字段长度，avgFieldLength为平均字段长度，公式了解一下即可。

IDF

即逆向文档频率(inversed document frequency)，单个term在所有文档里出现的频率是多少？出现次数越高，分越低，计算公式：

idf(t) = log(1 (docCount - docFreq 0.5) / (docFreq 0.5))

词 t 的逆向文档频率(idf)：索引中文档数量与该词的文档数比率，然后求其对数

例如："and"、"the"，"的"、"了"、"呢"这种词在文档里到处都是，出现的频率特别高，反倒是不常出现的词"Elastic"，"成都"可以帮助我们快速缩小范围找到感兴趣的文档。

结果合并

一个term经过上面两个算法计算后，会得到两个不同的值，这两个得分相乘得到一个综合性的分数，这个分数就是最终的_score

我们用explain来看一下这个综合分数的详细信息：

搜索请求：

GET /music/children/_search
{
  "explain": true,
  "query": {
    "term": {
      "name": "teeth"

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。