ES集群周六的时候因一个节点硬盘故障(新加入的三个节点,硬盘是比较新的产品出现了BUG),运维做了下线处理
按说一个6节点的ES集群,只是下线了一个节点,不应该会有特别大的影响(少了一个节点,分片少了一个写数少1/6左右的时间属于正常范围)
但是出现了线上跑数任务只要跟写ES有关系的时间都翻了好几倍,整个流程慢了9H
图一是正常的情况 图二是异常情况
15m 34s -> 55m 0s ↑ 40min
9m 31s -> 2h 3m 36s ↑ 114min
5m 59s -> 36m 11s ↑ 31min
59m 24s -> 2h 39m 27s ↑ 158min
通过小米监控发现其中某一台的负载比其它的都高
于是XX同事分析是因为之前6台节点时设置的默认分片数为6个
现在只剩5台节点,其中一台节点要被分配两个主分片以及两台节点会被分配到3个分片or副本
于是他把默认默认分片改为5个
但是我认为即便是五个节点有6个分片对于我们这个集群来说也不应该造成这么大的压力
并且除此之外集群的TCP连接数也比较异常
其中旧的三台连接数比正常的时候多了一倍,第五台连接数差不多