[error] Mnesia(‘emqx1@172.16.3.133‘): ** ERROR ** mnesia_event got {inconsistent_database, running_p

8.7-8.9日日志报错

6826+07:00 [warning] Ekka(AutoCluster): discovery did not succeed; retrying in 5000 ms
2024-08-07T21:43:52.525013+07:00 [warning] Ekka(AutoCluster): discovered nodes outside cluster: ['emqx1@172.16.3.133','emqx2@172.16.3.134']

emqx 用的是 erlang 的 mnesia 数据库,从 CAP 上来说它是个 CA 系统。就是说强一致性、并且不允许发生网络分片的。

mnesia 在 shutdown 的时候,发现仍然有其他节点正在工作,它就认为其他节点的数据一定是比他要新的,所以它在重新启动的时候,会首先尝试连接那些节点,如果连接不上就一直等待那些节点,目的是为了防止产生数据不一致。

8.16日志报错

running_partitioned_network

2024-08-16T15:45:35.666587+07:00 [error] Mnesia('emqx1@172.16.3.133'): ** ERROR ** mnesia_event got {inconsistent_database, running_partitioned_network, 'emqx2@172.16.3.134'} → 此时已经出现了网络分区,导致所有AP不在线
2024-08-16T15:45:35.666710+07:00 [critical] Ekka(Monitor): Network partition detected from node emqx2@172.16.3.134: running_partitioned_network

配置调整

集群节点自动清除

  • cluster.autoclean = 5m

网络分区与自动愈合

  • cluster.autoheal = on

关于EMQX集群网络 

核心节点之间的网络延迟建议 10ms 以下,实测高于 100ms 将不可用,请将核心节点部署在同一个私有网络下;复制节点和核心节点之间同样建议部署在同一个私有网络下,但网络质量要求可以比核心节点间略低。

EMQX网络分区与自愈流程

  1. 节点收到 Mnesia 的 inconsistent_database 事件 3 秒后进行集群网络分区确认;
  2. 节点确认集群网络分区发生后,向 Leader 节点 (集群中最早启动节点) 上报网络分区消息;
  3. Leader 节点延迟一段时间后,在全部节点在线状态下创建网络分区视图 (SplitView);
  4. Leader 节点在多数派 (majority) 分区选择集群自愈的 Coordinator 节点;
  5. Coordinator 节点重启少数派 (minority) 分区节点恢复集群。

网络分区容错

当网络分区发生时,集群可能会分裂成多个孤立的子集群,每个子集群都认为自己是唯一的活动集群,被称为“脑裂”问题。生产环境中的集群应能够自动从网络分区中恢复。

EMQX 的“自动修复”功能可以在网络分区后自动恢复集群。当启用此功能时,在网络分区发生并恢复后,集群中的节点将按照以下步骤进行修复:

  1. 节点向具有最长正常运行时间的领导节点报告分区情况。
  2. 领导节点创建一个全局的网络分裂视图,并选择多数派中的一个节点作为协调员。
  3. 领导节点请求协调员指挥少数派一侧的节点重新启动。
  4. 请求少数派一侧的所有节点执行重启操作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值