《深入理解Elasticsearch（原书第2版）》一2.1.4　一个例子

最新推荐文章于 2024-11-17 16:51:41 发布

weixin_33841722

最新推荐文章于 2024-11-17 16:51:41 发布

阅读量98

点赞数

文章标签：大数据

原文链接：https://yq.aliyun.com/articles/109562

版权

本节书摘来华章计算机《深入理解Elasticsearch（原书第2版）》一书中的第2章，第2.1.4节，[美]拉斐尔·酷奇（Rafal Ku）　马雷克·罗戈任斯基（Marek Rogoziski）著张世武　余洪淼　商旦　译更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.1.4　一个例子

现在，我们已经了解评分的工作原理。接下来我们看一个在现实生活中应用评分的简单例子。首先我们需要创建一个名为scoring的新索引。使用如下命令创建这个索引：

简单起见，我们使用了只有一个物理分片和0个副本的索引（我们不需要在这个例子中关心分布式文档频率）。我们需要索引一个简单的文档，代码如下：

接着我们执行一个简单的匹配（match）查询，查询的词项是“document”。

Elasticsearch返回的结果如下：

显然，刚才索引的这个文档被匹配上了，并且被赋予了得分。我们可以通过下面这条命令来查看得分的计算过程：

Elasticsearch返回的结果如下：

可以看出，Elasticsearch给出了针对给定文档和查询的详细的得分计算过程。同时可以看出，得分等于词项频率（本例中是1）和逆文档频率（0.30685282）以及字段范数（0.625）的乘积。
现在，我们再把另一个文档加入索引。

此时，如果执行最开始的查询，我们将看到如下响应：

现在，可以对比一下TF/IDF评分公式在现实场景中的工作了。在把第2个文档索引到相同分片后（请记住我们创建的索引只有一个分片且没有副本），得分发生了变化，尽管此时的查询和刚才的一样。这是因为一些影响得分的因子已经改变了。比如，逆文档频率变了，因此得分也会跟着改变。我们还需要注意对比一下两个文档的得分。我们查询了一个单词“document”，查询匹配上了两个文档的相同字段的相同词项。第2个文档的得分为什么较低，是因为和第1个文档相比，它的name字段多了一个词项。根据先前的知识储备，我们知道，文档越短，Lucene给出的得分越高。
希望这个简短的介绍会让你对评分工作机制认识得更清楚，在你需要优化查询时理解目标查询的工作过程。

weixin_33841722

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。