GBase 8a MPP集群高可用性管理

1.1   集群故障的分类

集群整体故障,即整个集群在瞬间同时停止工作(如断电),此种故障主要考察集群对于由于节点状态与集群状态的非一致性同步更新在故障发生时造成的非一致状态的识别和恢复能力。

节点故障,即指单个节点由于系统软件(Corosync,OS)或硬件及网络故障造成的该节点无法被gcware所构成的集群识别(即不能成为gcware集群的成员节点)。节点故障主要考察在SELECT操作时,集群的容错能力,包括节点替换及SafeGroup故障封锁等;在数据变更操作中,由于节点故障导致数据版本低于活动节点,故障节点必须标记为BROKEN状态,等待SyncTool工具完成同步。

资源故障,即指某个节点上用于集群运算的资源发生故障,如gcluster实例,gnode实例,文件系统剩余空间等资源的状态。相对于节点故障,资源故障除需考察节点故障的需处理的状况外,还需考察资源的可恢复能力,如实例故障后的重启。

集群结构变化,即指在某一操作执行过程中,由于网络原因,造成集群结构发生变化,如分裂;或是在集群热启动的情况下(即应用的服务请求先于集群发起),由于集群节点的顺序启动过程,导致集群结构在启动过程中始终是个动态变化的过程。对于集群结构变化,主要考量不同的集群结构,在响应所有数据操作的过程中,对于SELECT操作,要保持数据完整性;对于数据变更操作,要体现故障安全的原则,保证数据不会出现分支状况,并且在集群结构Merge时,保持数据的一致性。

1.2   集群的故障处理

资源型故障处理,主要由集群的自身恢复机制完成。如当gnode实例崩溃时,gcware会自动监测到gnode实例故障,并尝试重新启动gnode实例;当gcware尝试一定次数的重启依然无法启动gnode实例后,则gnode资源处于故障状态,此时需要管理员进行人工干预,排除故障。故障排除后,需通过gcwadmintool service restart 指令,重新开始监测gnode实例,并自动重新尝试启动。通常情况下,资源型股指的处理与恢复对集群的数据处理无影响。

节点故障处理,主要指被指为BROKEN状态的节点重新加入集群的过程。当一个节点故障处理后,重新启动gcware程序,该节点即被集群所发现,由于该节点已被集群标记为BROKEN状态,所以集群任务调度模块会将重新加入节点上的数据同步进程启动,开始同步该节点上的数据。数据同步结束后,执行node online操作,在Node Online操作中,集群负责对恢复节点的数据进行一致性验证。在数据同步过程中,如果有数据变更操作,数据变更操作相对于数据同步操作有更高的优先权,数据同步操作将被集群任务调度程序取消,待数据变更操作完成后,再重新启动。在Node Online操作的过程中,集群的数据比变更操作会被封锁,直至节点验证完成。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值