云数据库 GaussDB Dorado容灾集群数据复制失败怎么办?

告警解释

云数据库 GaussDB Dorado灾备集群搭建容灾关系后,灾备实例开始数据复制,因数据复制失败,产生该告警。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5023062

重要

操作告警

租户面

云数据库 GaussDB

告警参数

类别

参数名称

参数含义

定位信息

云服务

产生告警的云服务

系统

产生告警的系统

模块

产生告警的模块

实例ID

产生告警的实例ID

实例名称

产生告警的实例名称

实例数据IP

产生告警的实例的数据浮动IP列表。在没有数据浮动IP时不展示此字段。

工作ID

产生告警的工作流ID

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

对系统的影响

灾备集群启动数据复制失败,而无法搭建正常容灾关系,容灾功能无法使用。

可能原因
  • 网络配置错误。
  • 灾备集群异常。
  • Dorado异常。
处理步骤
  1. 使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。

    • 密码方式:输入账号和密码。
      • 默认账号:bss_admin

        对于从8.2.0或更早版本升级上来的ManageOne,默认账号为admin。

      • 默认密码:参见《华为云Stack 8.3.1 账户一览表》的“A类(Portal)”页签中,“ManageOne运维面”账户对应的默认密码。
    • USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN码。

  2. 在“告警 > 告警管理 > 当前告警”中查看告警信息,获取告警中的实例ID或者工作ID。
  3. 单击上方菜单栏的“首页”,返回首页。
  4. 在ManageOne运维面页面的“常用链接”栏中单击“ServiceCM”,跳转到ServiceCM插件列表界面。
  5. 在ServiceCM插件列表界面,单击“自助开发平台 > dbs-ops”,进入“DBS运维管理平台”。
  6. 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入告警定位信息中的实例ID或工作ID,执行搜索。

    “失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

  7. 根据6中失败的Task,进行不同的操作。

    • 场景一:“UnMountDoradoSharedDiskJob”的“WaitResourceManagerAsynTask” 任务失败,通过如下方法获取子任务流ID,进到资源管理ResourceManager 查看日志。
      • 可能原因:Dorado问题导致卸载卷失败,联系Dorado环境管理人员,检查Dorado 是否正常。

      • 解决方案:待Dorado恢复正常后,先在子工作流中对应失败任务重试成功后,在当前工作流的失败“WaitResourceManagerAsynTask”重试。
    • 场景二:“MountDoradoSharedDiskJob”的“WaitResourceManagerAsynTask” 任务失败,通过如下方法获取子任务流ID,进到资源管理ResourceManager 查看日志。
      • 可能原因:Dorado问题导致卸载卷失败,联系Dorado环境管理人员,检查Dorado 是否正常。

      • 解决方案:待Dorado恢复正常后,先在子工作流中对应失败任务重试成功后,在当前工作流的失败“WaitResourceManagerAsynTask”重试。
    • 场景三:“WaitConfigNetwork4DisasterRecoveryTask”任务失败。说明当前主实例连接访问对端实例的数据面不通,需要检查主实例与灾备实例面的网络连通性。
      1. DBS运维管理平台中单击目标实例名称,进入节点管理页面,获取主实例和对端灾备实例的每个节点的数据IP。
      2. 登录主实例节点。
      3. 执行如下指令,检查网络连通性,如下是不通的表现。

        ping <灾备实例数据网络节点的ip >

      4. 以上如报错,请联系环境管理员检查网络配置。

      解决方案:待网络解决后,在失败节点上对前一个“ConfigNetwork4DoradoDisasterRecoveryTask”重试。

    • 场景四:“WaitRefreshDoradoDiskTask”任务失败。说明Agent获取Dorado 共享卷状态失败。
      1. DBS运维管理平台中单击目标实例名称,进入节点管理页面,获取主实例节点IP。
      2. 登录主实例节点,执行如下指令检查。

        rpm -qa | grep UltraPath

      解决方案:待解决后,在失败节点上对前一个“RefreshDoradoDiskTask”重试。

    • 场景五:“WaitBuildDisasterOnDoradoTask”任务失败。说明当前灾备实例异常导致容灾搭建失败,需要检查如下内容。
      1. 执行如下指令,检查灾备集群状态。

        cm_ctl query Cvid

      2. 如果灾备集群状态异常,根据异常组件类型,参考ALM-5012947 云数据库 GaussDB ETCD服务异常 – ALM-5012951 云数据库 GaussDB DN服务异常进行修复。
      3. 待灾备集群修复完成后,在“BuildDisasterOnDoradoTask”进行重试。

        如果重做仍然失败,执行9

  8. 如果当前使用跨云容灾的方式,容灾任务流全部解决完后需处理跨云的任务流,详细内容请参考修复任务下发端主容灾任务
  9. 下载节点日志,并收集告警信息、日志信息和配置信息,联系技术支持进行处理。

    需要下载的日志信息有:

    管理侧:

    DBS-GaussDB-instancemanager组件下的日志。

    租户侧:

    agent组件下的:

    • /home/Ruby/log/agent.log
    • /home/Ruby/log/asyncJobResult.dat

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值