8.7-8.9日日志报错
6826+07:00 [warning] Ekka(AutoCluster): discovery did not succeed; retrying in 5000 ms
2024-08-07T21:43:52.525013+07:00 [warning] Ekka(AutoCluster): discovered nodes outside cluster: ['emqx1@172.16.3.133','emqx2@172.16.3.134']
emqx 用的是 erlang 的 mnesia 数据库,从 CAP 上来说它是个 CA 系统。就是说强一致性、并且不允许发生网络分片的。
mnesia 在 shutdown 的时候,发现仍然有其他节点正在工作,它就认为其他节点的数据一定是比他要新的,所以它在重新启动的时候,会首先尝试连接那些节点,如果连接不上就一直等待那些节点,目的是为了防止产生数据不一致。
8.16日志报错
running_partitioned_network
2024-08-16T15:45:35.666587+07:00 [error] Mnesia('emqx1@172.16.3.133'): ** ERROR ** mnesia_event got {inconsistent_database, running_partitioned_network, 'emqx2@172.16.3.134'} → 此时已经出现了网络分区,导致所有AP不在线
2024-08-16T15:45:35.666710+07:00 [critical] Ekka(Monitor): Network partition detected from node emqx2@172.16.3.134: running_partitioned_network
配置调整
集群节点自动清除
- cluster.autoclean = 5m
网络分区与自动愈合
cluster.autoheal = on
关于EMQX集群网络
核心节点之间的网络延迟建议 10ms 以下,实测高于 100ms 将不可用,请将核心节点部署在同一个私有网络下;复制节点和核心节点之间同样建议部署在同一个私有网络下,但网络质量要求可以比核心节点间略低。
EMQX网络分区与自愈流程
- 节点收到 Mnesia 的
inconsistent_database
事件 3 秒后进行集群网络分区确认; - 节点确认集群网络分区发生后,向 Leader 节点 (集群中最早启动节点) 上报网络分区消息;
- Leader 节点延迟一段时间后,在全部节点在线状态下创建网络分区视图 (SplitView);
- Leader 节点在多数派 (majority) 分区选择集群自愈的 Coordinator 节点;
- Coordinator 节点重启少数派 (minority) 分区节点恢复集群。
网络分区容错
当网络分区发生时,集群可能会分裂成多个孤立的子集群,每个子集群都认为自己是唯一的活动集群,被称为“脑裂”问题。生产环境中的集群应能够自动从网络分区中恢复。
EMQX 的“自动修复”功能可以在网络分区后自动恢复集群。当启用此功能时,在网络分区发生并恢复后,集群中的节点将按照以下步骤进行修复:
- 节点向具有最长正常运行时间的领导节点报告分区情况。
- 领导节点创建一个全局的网络分裂视图,并选择多数派中的一个节点作为协调员。
- 领导节点请求协调员指挥少数派一侧的节点重新启动。
- 请求少数派一侧的所有节点执行重启操作。