powerha_IBM PowerHA集群中的自动存储库磁盘替换(ARR)

IBM PowerHA 7.2引入的ARR功能可以在集群存储库磁盘故障时,自动切换到备份磁盘,避免集群进入受限模式。本文详细介绍了ARR的配置、磁盘故障演示及软件版本需求,确保集群稳定性。
摘要由CSDN通过智能技术生成

IBM PowerHA SystemMirror 7.2版引入了一项称为自动存储库磁盘替换(ARR)的新功能。

配置此功能后,当活动集群存储库磁盘发生故障或无法访问时,可以防止集群进入受限模式 。 当检测到存储库磁盘故障,集群感知AIX(CAA),PowerHA的子系统时,会将集群存储库更新为备份列表中的任何其他可用备份存储库,并且集群将处于工作模式。

存储库磁盘的定义和受限模式

存储库磁盘是在群集的所有节点之间共享的磁盘,并充当配置和群集管理操作的中央存储库。

在PowerHA的早期版本中,如果存储库磁盘发生故障,则集群将进入受限模式。 当群集处于受限模式时,仅允许进行关键的群集配置操作,例如将资源组从活动节点移动到备用节点。大多数与拓扑相关的操作,例如将节点添加到群集或进行同步不允许群集。 为了使群集脱离受限模式,管理员需要手动干预,在该操作中,必须手动配置备用存储库磁盘。

如何使用ARR防止群集进入受限模式?

在PowerHA 7.2版或更高版本中,管理员最多可以配置六个备份磁盘,这些备份磁盘可用作存储库磁盘。 当存储库磁盘发生故障时,PowerHA的CAA子系统将自动使用备用的预定义备份存储库替换并重建发生故障的存储库。 此交换将在syslog.caa文件中记录通知和信息。

如果您有一个链接集群,其中有两个站点及其各自的CAA集群和关联的存储库磁盘,则可以为每个站点配置六个备份存储库磁盘。 由于标准群集和扩展群集只有一个CAA群集,因此可以配置六个备份存储库磁盘。

支持的软件版本和前提条件

ARR功能需要以下版本的PowerHA和AIX软件:

  • PowerHA SystemMirror版本7.2或更高版本。
  • 以下是IBMAIX®操作系统的以下版本之一:
    • AIX 7.1.4或更高版本
    • AIX版本7.2.0或更高版本
  • 相应的可靠可伸缩集群技术(RSCT)版本以及AIX版本。

ARR的PowerHA集群配置

图1:具有相同集群存储库和备份磁盘的扩展集群

在本文中,我们将考虑一个具有两个站点的扩展集群,其中每个站点由一个节点组成。 SiteA是生产站点,SiteB是辅助站点。 Node1与SiteA关联,Node2与SiteB关联。

以下是具有一个网络和一个资源组的群集配置。

(0) root @ Node1: /
# cltopinfo
Cluster Name:    Node1_cluster
Cluster Type:    Stretched
Heartbeat Type:  Multicast
Repository Disk: hdisk1 (00f601736b563ee7)
Cluster IP Address: 228.40.1.43
Cluster Nodes:
        Site 1 (SiteA):
                Node1
        Site 2 (SiteB):
                Node2
                
There are 2 node(s) and 1 network(s) defined

NODE Node1:
        Network net_ether_01
                Node1   10.40.1.43

NODE Node2:
        Network net_ether_01
                Node2   10.40.1.44

Resource Group RG1
        Startup Policy   Online On Home Node Only
        Fallover Policy  Fallover To Next Priority Node In The List
        Fallback Policy  Fallback To Higher Priority Node In The List
        Participating Nodes      Node1 Node2

在此群集配置中, hdisk1(00f601736b563ee7)具有caavg ,它是Node1和Node2的群集存储库,并且所有与群集相关的操作均从Node1执行。 从Node1完成同步后,对群集的所有更改都将传播到整个群集节点。

(0) root @ Node1: /
# lspv
hdisk0          00f60173354ccb32                    rootvg          active
hdisk1          00f601736b563ee7                    caavg_private   active

(0) root @ Node2: /
# lspv
hdisk0          00f60173354cc8d9                    rootvg          active
hdisk1          00f601736b563ee7                    caavg_private   active

也可以在PowerHA clmgr实用程序命令的帮助下进行查看。

(0) root @ Node1: /usr/es/sbin/cluster/utilities
# clmgr query repository
hdisk1 (00f601736b563ee7)

(0) root @ Node2: /usr/es/sbin/cluster/utilities
# clmgr query repository
hdisk1 (00f601736b563ee7)

对于PowerHA 7.2版和更高版本,运行集群的查询命令可指定是否使ARR可用。

(0) root @ Node1: /
# clmgr query cluster
CLUSTER_NAME="Node1_cluster"
CLUSTER_ID="1496423755"
STATE="OFFLINE"
TYPE="NSC"
HEARTBEAT_TYPE="MULTICAST"
CLUSTER_IP="228.40.1.43"
REPOSITORIES="hdisk1 (00f601736b563ee7)"
VERSION="7.2.0.1"
VERSION_NUMBER="16"
EDITION="ENTERPRISE"
AGREE_TO_COD_COSTS="false"
ONOFF_DAYS="30"
LPM_POLICY=""
HEARTBEAT_FREQUENCY_DURING_LPM="0"
NETWORK_FAILURE_DETECTION_TIME="20"
AUTOMATIC_REPOSITORY_REPLACEMENT="available"

图2显示了配置ARR之前, HACMPsircol对象数据管理器(ODM)在群集节点之一上的对象的输出。 如您backup_repositorybackup_repository字段为空。 HACMPsircol是ODM中与PowerHA相关的对象之一。 该对象将集群信息与存储库磁盘信息一起存储。

图2:添加备份存储库磁盘之前的HACMPsircol输出

您可以使用系统管理界面工具(SMIT)菜单或PowerHA clmgr实用程序命令行界面为ARR添加备份存储库。 在本文中,我们将看到如何使用SMIT添加备份存储库磁盘。 请参考以下命令,以使用clmgr实用程序添加备份存储库磁盘。

(0) root @ Node1: /
# clmgr add repository -?

 clmgr add repository <disk>[,<backup_disk#2>,...] \
        [ SITE=<site_label> ] \
        [ NODE=<reference_node> ] \
        [ DISABLE_VALIDATION={false|true} ]

 add => create, make, mk
 repository => rp

在命令提示符下使用smit hacmp命令打开SMIT界面,然后选择以下选项以添加备份存储库磁盘(如图3所示)。

Smit hacmp→群集节点和网络→管理存储库磁盘→添加存储库磁盘。

此操作在Node1上执行。 此后,您需要验证并同步整个集群中的更改。

图3:添加备份存储库磁盘

接下来,您需要从可用磁盘列表中选择备份存储库。 在这种情况下,将选择四个备份磁盘,如图4所示。ARR最多允许六个磁盘。

图4:从可用共享磁盘中选择一个备份台

添加磁盘后,如果磁盘成功添加到集群,则会显示命令状态消息(如图5所示)。

图5:添加备份磁盘后的命令状态

下一步是同步集群,以使配置反映在集群的所有节点上。 可以使用PowerHA提供的验证和同步选项来完成此操作。

集群同步后,配置更改会反映在集群的所有节点上。 在每个节点上使用clmgr view report repository命令验证此信息。 这使您能够识别添加为备份磁盘的磁盘,以及当前群集处于活动状态的磁盘。

站点A上的Node1

(0) root @ Node1: /
# clmgr view report repository
Node1_cluster :
        00f601736b563ee7 hdisk1(Node2)   active
        00f601736b563dad hdisk2(Node2)   backup
        00f601736b563cba hdisk3(Node2)   backup
        00f601736b563b84 hdisk4(Node2)   backup
        00f601736b563aa4 hdisk5(Node2)   backup

站点B上的Node2

(0) root @ Node2: /
# clmgr view report repository
Node1_cluster :
        00f601736b563ee7 hdisk1(Node2)   active
        00f601736b563dad hdisk2(Node2)   backup
        00f601736b563cba hdisk3(Node2)   backup
        00f601736b563b84 hdisk4(Node2)   backup
        00f601736b563aa4 hdisk5(Node2)   backup

在此,hdisk2,hdisk3,hdisk4和hdisk5是备份存储库磁盘。

现在,每个群集节点上的HACMPsircol ODM对象都包含存储库磁盘的物理卷ID(PVID)。 图6显示了输出以及存储库磁盘和备份磁盘列表。

图6:添加备份磁盘后的HACMPsircol输出

设置备份磁盘后,启动群集服务并等待群集稳定。

磁盘故障演示ARR

如图6所示,PVID为"00f601736b563ee7" (hdisk1)的磁盘"00f601736b563ee7" (hdisk1)是集群存储库处于活动状态的磁盘。 出于演示目的,我们将使hdisk1上的I / O失败,如果该磁盘是虚拟小型计算机系统接口(VSCSI),则可以通过从虚拟I / O服务器(VIOS)删除磁盘来完成此操作,否则可以将其取消映射如果相应的活动集群存储库磁盘是N_Port ID虚拟化(NPIV),则从存储中进行存储。 如果磁盘来自后端存储,则可以使用光纤通道交换机中的portdisable命令来完成磁盘故障。

一旦启动群集服务,群集状态将处于活动状态。

(0) root @ Node1: /home/f/Tools
# clcmd lssrc -ls clstrmgrES| grep state
Current state: ST_STABLE
Current state: ST_STABLE

为了在本文中演示ARR,使用内核扩展应用程序完成了hdisk1上失败的I / O操作。

(0) root @ Node1: /home/Tools
# lke fail_io_kext
        a0256000

(0) root @ Node1: /home/Tools/
# fail_io -e /dev/hdisk1   ----------------------- failed I/O enabled
I/O fail ON

(0) root @ Node1: /home/Tools/
# dd if=/dev/hdisk1 of=/dev/null count=10
dd: 0511-051 The read failed.
: There is an input or output error. ---------------- disk is inaccessible
0+0 records in.
0+0 records out.

磁盘失败事件记录在来自CAA的syslog.caa中。 ARR的大部分工作是由CAA完成的,但是SystemMirror需要连接到CAA,以便配置更改可以从SystemMirror传播到CAA,或从CAA传播到SystemMirror。 图7和图8显示了syslog.caa的日志。 图7显示了当hdisk1发生故障时,启用了ARR,而图8显示了将活动集群存储库磁盘替换为备份列表中的下一个磁盘(即hdisk2)时发生的事件。

图7:启用了ARR的syslog.caa日志
图8:将活动磁盘替换为备份磁盘时的syslog.caa日志

活动群集存储库磁盘发生故障后,活动磁盘将替换为备份存储库列表中的磁盘。 甚至可以使用lspv命令来验证。 图9显示,在hdisk1发生故障后,caavg将被替换并在hdisk2上处于活动状态,CAA会自动更新它,也可以通过检查HACMPsircol ODM值来进行验证。 与图6相比,hdisk1(00f601736b563ee7)存储库处于活动状态,而自动更新存储库后,hdisk2(00f601736b563dad)更改为活动存储库,并将hdisk1(00f601736b563ee7)添加到备份列表中,如图10所示。

图9:替换存储库磁盘后的lspv输出
图10:自动替换存储库后的HACMPsircol输出

也可以使用CAA命令, lscluster -dclmgr view report repository命令来验证。 lscluster -d命令显示磁盘列表,其中hdisk2是活动存储库磁盘,其他磁盘是备份磁盘。

(0) root @ Node1: /
# lscluster -d
Storage Interface Query

Cluster Name: Node1_cluster
Cluster UUID: 8d6a2434-ccdd-11e5-8077-9a9da6c0850c
Number of nodes reporting = 2
Number of nodes expected = 2

Node Node1.ausprv.stglabs.ibm.com
Node UUID = 8d5cb556-ccdd-11e5-8077-9a9da6c0850c
Number of disks discovered = 5
         hdisk2:
               State : UP
                uDid : 200B75TL7711A0207210790003IBMfcp
                uUid : ba63c805-b68d-6157-91bb-b065d22c8c0b
           Site uUid : 51735173-5173-5173-5173-517351735173
                Type : REPDISK
        hdisk3:
               State : UP
                uDid : 200B75TL7711A0307210790003IBMfcp
                uUid : 58633a20-cedf-ea49-0495-56d72a198b55
           Site uUid : 51735173-5173-5173-5173-517351735173
                Type : BACKUP_DISK
        hdisk4:
               State : UP
                uDid : 200B75TL7711A0407210790003IBMfcp
                uUid : 90728701-4766-c3bf-b14c-7406ba8eabe0
           Site uUid : 51735173-5173-5173-5173-517351735173
                Type : BACKUP_DISK
        hdisk5:
               State : UP
                uDid : 200B75TL7711A0507210790003IBMfcp
                uUid : 45405d44-d4da-7e18-181b-c2543f826382
           Site uUid : 51735173-5173-5173-5173-517351735173
                Type : BACKUP_DISK
         hdisk1:
               State : UP
                uDid : 200B75TL7711A0107210790003IBMfcp
                uUid : f98bc1f1-7220-f3b1-b6ec-aad108357fbb
           Site uUid : 51735173-5173-5173-5173-517351735173
                Type : BACKUP_DISK
                
Node Node2.ausprv.stglabs.ibm.com
Node UUID = 8d4eb15e-ccdd-11e5-8077-9a9da6c0850c
Number of disks discovered = 5
        hdisk2:
               State : UP
                uDid : 200B75TL7711A0207210790003IBMfcp
                uUid : ba63c805-b68d-6157-91bb-b065d22c8c0b
           Site uUid : 51735173-5173-5173-5173-517351735173
                Type : REPDISK
        hdisk3:
               State : UP
                uDid : 200B75TL7711A0307210790003IBMfcp
                uUid : 58633a20-cedf-ea49-0495-56d72a198b55
           Site uUid : 51735173-5173-5173-5173-517351735173
                Type : BACKUP_DISK
        hdisk4:
               State : UP
                uDid : 200B75TL7711A0407210790003IBMfcp
                uUid : 90728701-4766-c3bf-b14c-7406ba8eabe0
           Site uUid : 51735173-5173-5173-5173-517351735173
                Type : BACKUP_DISK
        hdisk5:
               State : UP
                uDid : 200B75TL7711A0507210790003IBMfcp
                uUid : 45405d44-d4da-7e18-181b-c2543f826382
           Site uUid : 51735173-5173-5173-5173-517351735173
                Type : BACKUP_DISK
        hdisk1:
               State : UP
                uDid : 200B75TL7711A0107210790003IBMfcp
                uUid : f98bc1f1-7220-f3b1-b6ec-aad108357fbb
           Site uUid : 51735173-5173-5173-5173-517351735173
                Type : BACKUP_DISK
                
(0) root @ Node1: /mnt/fvsysmirror/Tools
# clmgr view report repository
Node1_cluster :
00f601736b563dad hdisk2(Node2)   active
00f601736b563cba hdisk3(Node2)   backup
00f601736b563b84 hdisk4(Node2)   backup
00f601736b563aa4 hdisk5(Node2)   backup
00f601736b563ee7 hdisk1(Node2)   backup

如果无法访问备份存储库,则CAA将替换并重建列表中可用的任何备份磁盘,作为活动存储库。

结论

您可以使用IBM PowerHA SystemMirror的ARR功能来防止集群在活动集群存储库磁盘发生故障或不可访问时进入受限模式 ,从而确保集群始终保持稳定状态。

翻译自: https://www.ibm.com/developerworks/aix/library/au-arr-in-ibm-powerha-cluster/index.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值