集群基本概念—脑裂的产生和解决方案

最新推荐文章于 2024-08-22 20:19:44 发布

布鲁斯的调调

最新推荐文章于 2024-08-22 20:19:44 发布

阅读量1w

点赞数 7

分类专栏： DevOps 文章标签：集群 nas 高可用脑裂

本文链接：https://blog.csdn.net/Elliot_2b/article/details/90106711

版权

DevOps 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

什么是裂脑？

当两台高可用服务器在指定的时间内，无法互相检测到对方心跳而各自启动故障转移功能，取得了资源以及服务的所有权，而此时的两台高可用服务器对都还活着并作正常运行，这样就会导致同一个服务在两端同时启动而发生冲突的严重问题，最严重的就是两台主机同时占用一个VIP的地址（类似双端导入概念），当用户写入数据的时候可能会分别写入到两端，这样可能会导致服务器两端的数据不一致或造成数据的丢失，这种情况就称为裂脑，也有的人称之为分区集群或者大脑垂直分隔

发生脑裂，导致互相竞争同一个IP资源，就如同我们局域网内常见的IP地址冲突一样，两个机器就会有一个或者两个不正常，影响用户正常访问服务器。如果是应用在数据库或者是存储服务这种极重要的高可用上，那就导致用户发布的数据间断的写在两台服务器上的恶果，最终数据恢复及困难或者是难已恢复

导致裂脑发生的原因：

优先考虑心跳线路上的问题，在可能是心跳服务，软件层面的问题

1）高可用服务器对之间心跳线路故障，导致无法正常的通信。原因比如：

1——心跳线本身就坏了（包括断了，老化）；

2-——网卡以及相关驱动坏了,IP配置及冲突问题；

3——心跳线间连接的设备故障（交换机的故障或者是网卡的故障）；

4——仲裁的服务器出现问题。

2）高可用服务器对上开启了防火墙阻挡了心跳消息的传输；

3）高可用服务器对上的心跳网卡地址等信息配置的不正确，导致发送心跳失败；

4）其他服务配置不当等原因，如心跳的方式不同，心跳广播冲突，软件出现了BUG等。

防止脑裂发生的方法：

实际的生产环境中，我们可以从以下几个方面来防止裂脑的发生：

1）同时使用串行电缆和以太网电缆连接，同时用两条心跳线路，这样一条线路坏了，另一个线路还是好的，依然能传送消息（推荐的）

2）检测到裂脑的时候强行的关闭一个心跳节点（需要特殊的节点支持，如stonith，fence），相当于程序上备节点发现心跳线故障，发送关机命令到主节点。

3）多节点集群中，可以通过增加仲裁的机制，确定谁该获得资源，这里面有几个参考的思路：

1——增加一个仲裁机制。例如设置参考的IP，当心跳完全断开的时候，2个节点各自都ping一下参考的IP，不同则表明断点就出现在本段，这样就主动放弃竞争，让能够ping通参考IP的一端去接管服务。

2——通过第三方软件仲裁谁该获得资源，这个在阿里有类似的软件应用

4）做好对裂脑的监控报警（如邮件以及手机短信等），在问题发生的时候能够人为的介入到仲裁，降低损失。当然，在实施高可用方案的时候，要根据业务的实际需求确定是否能够容忍这样的损失。对于一般的网站业务，这个损失是可控的（公司使用）

5）启用磁盘锁。正在服务一方锁住共享磁盘，脑裂发生的时候，让对方完全抢不走共享的磁盘资源。但使用锁磁盘也会有一个不小的问题，如果占用共享盘的乙方不主动解锁，另一方就永远得不到共享磁盘。现实中介入服务节点突然死机或者崩溃，另一方就永远不可能执行解锁命令。后备节点也就截关不了共享的资源和应用服务。于是有人在HA中涉及了“智能”锁，正在服务的一方只在发现心跳线全部断开时才启用磁盘锁，平时就不上锁了

6）报警报在服务器接管之前，给人员处理留足够的时间就是1分钟内报警了，但是服务器不接管，而是5分钟之后接管，接管的时间较长。数据不会丢失，但就是会导致用户无法写数据。报警后，不直接自动服务器接管，而是由人员接管。