Elasticsearch2.x 全文检索之——文档匹配度

本文深入探讨了Elasticsearch2.x中影响文档匹配度的因素,包括词频(TF)、逆文档频率(IDF)和字段长度标准化(Field-length norm)。通过这些指标,Elasticsearch能够计算出相关度评分,影响全文检索和yes/no查询的结果。在实际应用中,可以使用explain参数来观察文档得分的计算过程。
摘要由CSDN通过智能技术生成
什么是文档匹配度?
在ES中执行一个搜索请求在默认情况下搜索的结果集是按照匹配度倒序排列。但是什么是文档匹配度?它是如何被计算的呢?
每个文档的匹配度评分在es中被表示为一个浮点型的正数——“_score”,文档的_score评分越高,文档与搜索词的匹配度越大。
在查询中一个查询子句会为每一个文档生成一个_score,文档评分的计算依赖于具体查询子句的类型,不同的查询子句被用在不同的搜索场景中,比如:一个fuzzy查询的_score表示拼写所找到的关键词和原始搜索请求中的词的相似度,一个terms查询的_score表示我们查询的词在文档中所占的百分比。那么,我们通常所说的查询字符串与文档的匹配算法是什么呢?

在Elasticsearch中标准的相似度算法叫做 term freqyency/inverse document frequency(也叫做TF/IDF),该算法是在Lucene中实现,以下是Lucene计算文档评分的公式:

TF-I
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值