RocketMQ 集群采取的部署架构为2主2从,其部署架构如下图所示:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
其部署架构中一个非常明显的特点是一台物理机上分别部署了 nameserver,broker 两个进程。
其中一台机器(192.168.3.100)的内存出现故障,导致机器重启,但Linux操作系统由于重启需要自检等因素,整个重启过程竟然持续了将近10分钟,客户端的发送超时持续10分钟,这显然是不能接受的!!!
RocketMQ的高可用设计何在?接下来我们将详细介绍其分析过程。
当得知一台机器故障导致故障持续10分钟,我的第一反应是不应该呀,因为 RocketMQ 集群是分布式部署架构,天然支持故障发现与故障恢复,消息发送客户端能自动感知 Broker 异常的的时间绝对不会超过10分钟,那故障又是怎么发生的呢?
首先我们先来回顾一下RocketMQ的路由注册与发现机制。
2.1 RocketMQ路由注册与剔除机制
其路由注册、剔除机制说明如下:
-
集群中所有Broker每隔30s向集群中所有的NameServer发送心跳包,注册Topic路由信息。
-
NameServer在收到Broker端的心跳包时首先会更新路由表,并记录收到心跳包的时间。
-
NameServer会启动一个定时任务每10s会扫描Broker,如果Nameserver连续120s未收到Broker的心跳包,会判定Broker已下线,将从路由表中将该Broker移除。
-
如果Nameserver与Broker端的长连接断开,NameServer会立即感知Broker下线并从路由表中将该Broker移除。
-
消息客户端(消息发送者、消息消费者)在任意时刻只会和其中一台NameServer建立连接,并每隔30s向NameServer查询路由信息,如果查询到结果会更新发送者的本地路由信息。
从上述的路由注册、剔除机制来看,当一台Broker服务器宕机,消息发送者感知路由信息发生变化需要的时间是多长呢?
分如下两种情况分别讨论:
-
NameServer与Broker服务器TCP连接断开,此时NameServer能立即感知路由信息变化,将其从路由表中移除,从而消息发送端应该在30s左右就能感知路由发送变化,在此30s内在发送端会出现消息发送失败,但结合发送规避机制,并不会对发送方带来重大故障,可接受。
-
如果NameServer与Broker服务器的TCP连接未断开,但Broker已无法提供服务(例如假死),此时NameServer需要120s才能感知Broker宕机,此时消息发送端最多需要150s才能感知其路由信息的变化。
但问题来了,为什么在生产实际过程中一台Broker由于内存故障重启,10分钟后重启成功后业务才恢复,即业务才真正感知Broker宕机呢?
既然出现了,我们就需要对其进行分析,给出解决方案,避免不会在生产环境出现同类型的错误。
2.2 故障排查经过
先查询客户端的日志(/home/{user}/logs/rocketmqlogs/rocketmq_client.log),从中可以看到从客户端第一次报消息发送超时的时间是14:44,其日志输出如下:
由于192.168.3.100机器内存故障,故首先去查看该集群中其他nameserver中的日志,看正常机器中的NameServer感知broker-a故障的时长,其日志如下所示:
从中可以看出192.138.3.101的nameserver基本在2分钟左右才感知其宕机,即虽然机器在重启,但可能由于操作系统要做硬件自检等其他原因,TCP连接并未断开,故nameserver在120s后才感知其宕机,从路由信息表中将该broker移除,那按照路由剔除机制,客户端应该在150秒的时间内感知其变化,那为什么没感知呢?
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)
最后
文章中涉及到的知识点我都已经整理成了资料,录制了视频供大家下载学习,诚意满满,希望可以帮助在这个行业发展的朋友,在论坛博客等地方少花些时间找资料,把有限的时间,真正花在学习上,所以我把这些资料,分享出来。相信对于已经工作和遇到技术瓶颈的朋友们,在这份资料中一定都有你需要的内容。
《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》,点击传送门即可获取!
料中一定都有你需要的内容。**
《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》,点击传送门即可获取!