ELK合集(十二):Elasticsearch关键术语之分布式搜索持续更新

最新推荐文章于 2022-08-08 14:30:55 发布

Cheese海盐芝士

最新推荐文章于 2022-08-08 14:30:55 发布

阅读量154

点赞数

分类专栏： ELK 文章标签： elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40777515/article/details/105026817

版权

ELK 专栏收录该内容

22 篇文章 9 订阅

订阅专栏

Elasticsearch关键术语系列博文目的只用来了解概念 ; 其中涉及到的配置和使用是为了方便日后使用时查询的

分布式搜索

分布式搜索的运行机制

第一阶段 Query

例如 3个节点的es集群有3个主分片 1个副本节点收到请求后会以coordinating node的身份在6个主副分片中随机选择3个分片发送查询请求

被选中的分片执行查询进行排序然后每个分片都会返回from+size个排序后的文档id和排序值给coordinating节点

第二阶段 Fetch

coordinating node会将query阶段从每个分片获取的排序后的文档id列表重新排序选取from到from+size个的文档的id

以multi get请求的方式到响应的分片获取详细的文档数据

引发的问题及解决

相关性算分不准

问题

每个分片都基于自己的分片上的数据进行相关度计算会导致打分偏离特别是数据量很少时相关性算分在分片之间是相互独立的如果主分片数越多相关性算分会越不准

解决

方式一调节主分片数 (推荐)
- 配置
  - 数据量不大时将主分片数设置为1
  - 数据量大时保证文档均匀分散在各个分片上就不会出现算分偏差
方式二 URL中指定参数 (不用)
- 原理
  - 到每个分片把各分片的词频和文档频率进行搜集然后完整的进行一个相关性算分耗费CPU和内存性能低
- 配置
  - 搜索的URL中添加参数 “_search?search_type=dfs_query_then_fetch”

深度分页的性能

问题

因为每个分片上需要查的文档个数 = from + size 所以最终协调节点需要处理number_of_shard*(from+size)个文档个数深度分页就是痛点了

示例 : 当一个查询 from=990 size=10 ES会在每个分片上都先取1000个文档然后通过coordinating node聚合所有结果最后再通过排序选取前1000个文档展示990到1000这10条数据页数越深占用内存越多

解决

搜索语句使用 “search_after”:[13,“xsdafvwrevwerbvtwer”] 避免深度分页性能问题
- 作用
  - 实时获取下一页文档信息不能指定from 只能往下翻
- 原理
  - 通过唯一排序值定位

ES默认限定到10000个文档想查询10001会报错

解决

settings中设置
- index.max_result_window

参考
阮一名资料
官方文档
百度

Cheese海盐芝士

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
ELK合集(十二):Elasticsearch关键术语之分布式搜索持续更新

分布式搜索分布式搜索的运行机制第一阶段 Query例如 3个节点的es集群有3个主分片 1个副本节点收到请求后会以coordinating node的身份在6个主副分片中随机选择3个分片发送查询请求被选中的分片执行查询进行排序然后每个分片都会返回from+size个排序后的文档id和排序值给coordinating节点第二阶段 Fetchcoordinating n...
复制链接

扫一扫

专栏目录

Cheese海盐芝士 CSDN认证博客专家 CSDN认证企业博客

码龄7年

97: 原创

8万+: 周排名

86万+: 总排名

5万+: 访问

: 等级

1336: 积分

19: 粉丝

6: 获赞

12: 评论

53: 收藏

私信

关注

热门文章

分类专栏

最新评论

Hugegraph合集(五):常见报错汇总
C_0622: SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/opt/hugegraph-toolchain-1.0.0/apache-hugegraph-loader-incubating-1.0.0/lib/log4j-slf4j-impl-2.18.0.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found binding in [jar:file:/opt/hugegraph-toolchain-1.0.0/apache-hugegraph-loader-incubating-1.0.0/lib/slf4j-log4j12-1.6.1.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation. SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory] log4j:WARN No appenders could be found for logger (org.apache.http.client.protocol.RequestAddCookies). log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. >> HugeGraphLoader worked in NORMAL MODE vertices/edges loaded this time : 2209/0 Failed to load, cause: Failed to deserialize json 大佬能看看这什么原因吗报错只有这几行
【科普】1_一文讲透ChatGPT入门科普
南辰.638: code interpreter有使用次数的限制吗？
Hugegraph合集(四):配置studio多图切图
揶揄板砖: 请教一下初始化时，报错配置选项hugegraph1（新创建的图名字）是多余的，请确保他已注册，配置文件都是按照文中的改的，请问哪里出问题了呢
Hugegraph合集(五):常见报错汇总
Human_Heart: 内存不够了，增加内存。
ClickHouse合集(一):分布式集群部署及python调用
Cheese海盐芝士: 实战所得

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Cheese海盐芝士 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。