记：zookeeper集群抖动造成solrcloud集群故障

学无止境-逆流而上

于 2021-05-12 13:51:00 发布

阅读量455

点赞数

文章标签：运维网络分布式 java redis

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ITbasketplayer/article/details/116744018

版权

一、故障描述

2020-04-18 23:10

solrcloud集群报警，大量节点线程数>10000，读写慢请求非常多，搜索业务接口大量超时。

二、紧急处理&故障追踪

紧急处理：

线程数居高不下，判断无法自愈，果断采取紧急节点重启方案，快速恢复服务。

故障追踪：

1、猜测是读写请求慢，导致线程池大量创建线程，第一步需要jstack栈数据分析

4000+线程节点jstack解析图

solr使用jetty线程池

jetty线程池

jettySolrRunner使用QueueThreadPool

2、查看solr节点故障时间点的日志

solr大量实时写入报错，伴随大量zookeeper方面的报错

查看当时zookeeper集群监控，存在网卡异常峰值，且日志上有大量集体session断开

3、查看zookeeper和solr session超时设置

当前-DzkClientTimeout=15000
solr源码默认值是45000

三、故障分析

总结轨迹

solr日志可以看到，先是zookeeper断开，update程序找不到leader报错，然后写入报错，读越来越慢。

分析

zookeeper网路抖动，造成solr和zookeeper session断开，solr update ZkStateReader误判leader找不到，重试，进而大量写超时。写和读都是通过jetty的QueueThreadPool，导致读慢，读写慢导致线程激增到10000+。

四、解决

排查zookeeper网络抖动原因(需要运维部门协作)
加大solr和zk的连接超时时间，使用默认的：-DzkClientTimeout=45000【1未做情况下，修改配置后至今稳定运行】

学无止境-逆流而上

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
记：zookeeper集群抖动造成solrcloud集群故障

一、故障描述2020-04-18 23:10solrcloud集群报警，大量节点线程数>10000，读写慢请求非常多，搜索业务接口大量超时。二、紧急处理&故障追踪紧急处理：线程数居高不下，判断无法自愈，果断采取紧急节点重启方案，快速恢复服务。故障追踪：1、猜测是读写请求慢，导致线程池大量创建线程，第一步需要jstack栈数据分析4000+线程节点jstack解析图solr使用jett...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。