solr重启后大批量core处于down状态且无法恢复

最新推荐文章于 2021-04-29 16:02:39 发布

「已注销」

最新推荐文章于 2021-04-29 16:02:39 发布

阅读量1.9k

点赞数

分类专栏： solr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxx1991523/article/details/106722111

版权

solr 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

solr集群：11台机器，46个solrserver，442个collection，每个collection30到40个shard不等，每个shard2个replica。每个solrserver上大约880个core，总计880*46≈4W个core

问题：solr集群重启后无法恢复

涉及版本：6.2

问题排查：

重启整个solr集群后，所有的collection都处于down状态，大量replica处于down和recovering状态，重启down状态的replica所在的solrserver没有任何作用。

solr重启后，每个replica都需要经过注册ZK、选举leader、恢复等一系列操作，这些操作都需要和zk交互，所有这些任务都会在zk上的/solr/overseer/queue上建立一个znode。在我们的重启场景下，4w个core会导致这个队列有大量的任务积压，在zk客户端查看znode个数，已经达到9W+

stat /solr/overseer/queue

恢复方案：

重启ZK清理znode，之后大量core恢复active，但一小时后集群仍未恢复，再次重启ZK，队列中znode数量不断减少，solr集群恢复active。

关于overseer队列的问题很多，后续研究。

「已注销」

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
solr重启后大批量core处于down状态且无法恢复

solr集群：11台机器，46个solrserver，442个collection，每个collection30到40个shard不等，每个shard2个replica。每个solrserver上大约880个core，总计880*46≈4W个core问题：solr集群重启后无法恢复涉及版本：6.2问题排查：重启整个solr集群后，所有的collection都处于down状态，大量replica处于down和recovering状态，重启down状态的replica所在的solrserv.
复制链接

扫一扫

专栏目录

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄15年

12: 原创

-: 周排名

-: 总排名

1万+: 访问

: 等级

188: 积分

6: 粉丝

0: 获赞

1: 评论

5: 收藏

私信

关注

热门文章

分类专栏

solr 8篇
lucene 1篇
java基础 1篇
leetcode 1篇

最新评论

solr重启后大批量core处于down状态且无法恢复
Yan_Less: 你可以 rmr /solr/overseer/queue 然后create /solr/overseer/queue。leader选举的问题会解决掉，另外zk单节点有数据大小限制。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。