ES搜索排序、相关性、评分机制

默认情况下,ES的搜索结果是排序的,是按 相关性 倒序排列的------相关性最高的排在最前面。

那么什么是相关性,相关性如何计算?

每个文档都有相关性评分,用一个正浮点数字段 _score 来表示 。 _score 的评分越高,相关性越高。

查询语句会为每个文档生成一个 _score 字段。(评分的计算方式取决于查询类型 不同的查询语句用于不同的目的,这里不详细介绍。)

Elasticsearch 的相似度算法被定义为检索词频率/反向文档频率, TF/IDF ,包括以下内容:

检索词频率

检索词在该字段出现的频率?出现频率越高,相关性也越高。 字段中出现过 5 次要比只出现过 1 次的相关性高。

反向文档频率

每个检索词在索引中出现的频率?频率越高,相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。常用词如 and 或 the 对相关度贡献很少,因为它们在多数文档中都会出现。

字段长度准则

字段的长度是多少?长度越长,相关性越低。 检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。

 下面举例说明,理解评分标准

假设,检索关键词 `honeymoon`,在索引上所有文档中的`tweet`字段中检索。

检索词频率:

检索词 `honeymoon` 在这个文档的 `tweet` 字段中的出现次数。出现次数越多,评分越高。

反向文档频率:

检索词 `honeymoon` 在索引上所有文档的 `tweet` 字段中出现的次数。出现次数越多,评分越低。

字段长度准则:

在这个文档中, `tweet` 字段内容的长度 -- 内容越长,评分越低。

以上内容,根据ES官网内容学习整理。https://www.elastic.co/

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值