9_ElasticSearch 多shard场景下relevance score不准确

最新推荐文章于 2022-12-28 19:57:39 发布

chenshiying007

最新推荐文章于 2022-12-28 19:57:39 发布

阅读量1.2k

点赞数

分类专栏：【构建高可用架构】【大数据】【ElatisSearch】

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27384769/article/details/79645418

版权

【构建高可用架构】同时被 3 个专栏收录

347 篇文章 27 订阅

订阅专栏

【大数据】

156 篇文章 4 订阅

订阅专栏

【ElatisSearch】

130 篇文章 82 订阅

订阅专栏

9_ElasticSearch 多shard场景下relevance score不准确

更多干货

ElasticSearch 笔记

图解

如果你的一个index有多个shard的话，可能搜索结果会不准确

如何解决该问题

1、生产环境下，数据量大，尽可能实现均匀分配

数据量很大的话，其实一般情况下，在概率学的背景下，es都是在多个shard中均匀路由数据的，路由的时候根据_id，负载均衡
比如说有10个document，title都包含java，一共有5个shard，那么在概率学的背景下，如果负载均衡的话，其实每个shard都应该有2个doc，title包含java
如果说数据分布均匀的话，其实就没有刚才说的那个问题了

2、测试环境下

将索引的primary shard设置为1个，number_of_shards=1，index settings
如果说只有一个shard，那么当然，所有的document都在这个shard里面，就没有这个问题了

3、测试环境下

搜索附带search_type=dfs_query_then_fetch参数，会将local IDF取出来计算global IDF
计算一个doc的相关度分数的时候，就会将所有shard对的local IDF计算一下，获取出来，在本地进行global IDF分数的计算，会将所有shard的doc作为上下文来进行计算，也能确保准确性。
但是production生产环境下，不推荐这个参数，因为性能很差。

相关文章

ElasticSearch 笔记

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
9_ElasticSearch 多shard场景下relevance score不准确

9_ElasticSearch 多shard场景下relevance score不准确更多干货分布式实战（干货）spring cloud 实战（干货）mybatis 实战（干货）spring boot 实战（干货）React 入门实战（干货）构建中小型互联网企业架构（干货）python 学习持续更新ElasticSearch 笔记图解如果你的一个index有多个shard的话，可能搜索结果会不准确...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。