solr为一主两从
问题描述:发现solr进行导数时,页面无反应,导数心跳状态变为不可见,solrCloud仪表盘显示主从状态异常,永远为一个Ip.
只在一台机器存在问题,其他两台无问题
排查步骤
1.查看solr日志看到报错为文件打开失败,超出最大限制
lsof |wc -l 查看句柄数为四万多
ps -ef|gerp solr 查看pid
lsof -p pid | wc -l 结果为两万多句柄占用,明显存在问题
查看zookeeper配置显示主从IP存在缺失,永远是一台机器的IP。(./zkcli.sh -zkhost ip/solr -cmd list)
直接进入zookeeper的/节点,ls /solr/config 和/solr/collecton 下的数据,都存在
观察zookeeper集群的三台机器都正常。
2.重启solr后,句柄占用过多问题解决
3.重启该存在机器,由于是solr使用的是内存挂载,先进行相关挂载,以及zookeeper,solr启动。
4.将zookeeper集群中所有solr相关core删除(./zkcli.sh -zkhost ip/solr -cmd clear /)
5.重新建立core,观察导数成功,仪表板心态状态正常
6.检查solr.xml文件,发现<solrCloud><str>节点IP配置错误,导致主从有问题。
7.重新配置solr集群节点IP后,重启,重新配置后一切正常
问题原因:
就该问题发生起因是因为,有同事私下得知对应用户密码进行误操作导致,将其他机器的文件直接复制到该机器后出现的问题,又在该机器对zookeeper进行了upload和link操作
导致zookeeper管理的配置文件信息出现问题,和主从节点发现失败问题
解决办法
编写shell脚本自动完成相关配置文件修改