记一次生产事故,dubbo周期性的报No provider available

 

1.实施人员发现,生产环境,在正常使用中会突然出现500,而后刷新一次就好了,如下图

2.查询后台日志后发现为No provider available,根据经验,这个情况是服务提供者未正常启动。生产环境有两台dubbo提供者,两台消费者,虽然正常来说就算一台提供者挂掉也应该没问题,但还是用dubbo-admin检查了下两台提供者情况,结果为正常,消费者也正常

3.至此,该问题已属于不常见的范围,其他项目组也未出现过,但问题依旧会出现,时不时的500,于是想到检查zookeeper,该项目zookeeper为群集部署,一共三台,在检查第一台时,发现问题,服务已经停了,原因是磁盘被日志占满。清理日志后重启服务,居然启动失败,在运维师傅的指引下,发现启动失败的原因是此zookeeper与其他两台的数据未同步(数据存放目录/data/zookeeper-3.4.10/data,在/data/zookeeper-3.4.10/conf/zoo.cfg中指定),后把另一台正常的zookeeper数据拷贝过来,启动成功了,至此问题圆满解决

 

 

 

 

才怪。。。

4.在经过上面的操作后,发现还是会出现No provider available,再一次头大。检查zookeeper日志,发现会一直报

在查阅百度资料后,发现这个错误是zookeeper设置客户端与zookeeper连接的超时时间太短,把三台zookeeper的超时设为60000并重启后,该错误消失,并且zookeeper再无其他异常日志,但dubbo还是会报No provider available

5.现在已有些绝望,再翻查tomcat日志,发现了一些规律

每十分钟,就会出现关于zookeeper的异常,然后想到心跳检查,检查了下zookeeper配置,设置的每十秒检查一次,排除。

又想到zookeeper同步数据,观察了一下,数据同步差不多就是十分钟一次,值得重点关注。前面是把另一台正常的数据拷贝过来了,虽然能正常启动,但也可能还是会导致问题,在这个思路下

所以这一次在 中午午休时间,把三台zookeeper停止,然后把数据清空,重新启动,接着观察dubbo日志。

无异常了!!!

 

总结,zookeeper磁盘满导致服务宕掉,集群状态下, 需将集群数据清理掉重新启动才可恢复正常

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值