云数据库 GaussDB增量备份(日志备份)失败如何解决?

告警解释

GaussDB日志备份连续失败1小时,产生此告警。后续每5分钟上报一次告警。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5023501

重要

操作告警

租户面

云数据库 GaussDB

告警参数

类别

参数名称

参数含义

定位信息

云服务

产生告警的云服务

系统

产生告警的系统

模块

产生告警的模块

实例

产生告警的实例ID

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

对系统的影响

近一小时不支持任意时间点恢复。

可能原因
  • 增备进程受阻。
  • OBS连接异常。
处理步骤
  1. 使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。

    • 密码方式:输入账号和密码。
      • 默认账号:bss_admin

        对于从8.2.0或更早版本升级上来的ManageOne,默认账号为admin。

      • 默认密码:参见《华为云Stack 8.3.1 账户一览表》的“A类(Portal)”页签中,“ManageOne运维面”账户对应的默认密码。
    • USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN码。

  2. 在“告警 > 告警管理 > 当前告警”中查看告警信息,获取告警中的实例ID或者工作ID。
  3. 单击上方菜单栏的“首页”,返回首页。
  4. 在ManageOne运维面右下角“常用链接”栏中单击“ServiceCM”,跳转到ServiceCM插件列表界面。
  5. 在ServiceCM插件列表界面,单击“自助开发平台 > dbs-ops”,进入DBS运维管理平台。
  6. 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”,输入框中输入上一步获取的实例ID,执行搜索,找到最近一次全量备份,单击“树表”。

  7. 参考修改Workflow的Job Context,通过下图中Job找到nodeId。

  8. 定位失败原因。

    • 选择“实例运维 > 备份管理 > 备份恢复管理” ,在查询框中输入定位信息中的实例ID,单击查询按钮进行搜索。

      在实例列表右侧“操作”单击“查询可恢复时间段”,观察可恢复时间段是否包含最近时间点的连续时间段。

      如果不包含,根据7中获取的nodeId,参考收集日志下载日志,通过查看“/home/Ruby/log/om_agent/agent.log ”日志,如图在日志中查看到开始时间和结束时间相同。

      该种情况可能由于业务压力过大导致,告警信息中会包含“Incremental backup delay is too long”关键字,此时可以通过降低业务压力,等待一段时间自动推进可恢复时间,如果无法降低业务,也无需手动处理,系统会自动进行修复,但会造成可恢复时间段丢失。

    • 如果日志中包含“Failed due to remove the CN node”关键词,说明出现了CN节点剔除的场景,增备任务暂时无法继续持续推进,从而发出该告警。此时可以等待后台自动触发一个物理备份后,会重新开始继续执行增备任务,等待一段时间自动推进可恢复时间,无需手动处理,系统会自动进行修复,但会造成可恢复时间段丢失。
    • 如果日志中包含“failed to consume ha operation kafka message for log backup control”关键词,是由于原来执行日志备份任务的节点出现了异常,此时后台会自动触发切换执行增备进程节点的操作,如果切换操作出现了异常导致切换失败会发出该告警。此时可以观察该实例的基本信息,是否存在正常状态的主节点,如果不存在,需要进行节点修复,保证实例有正常的主节点。如果实例已经修复,可以通过等待一段时间自动推进可恢复时间,新的增量备份产生后,会自动消除告警,无需手动处理,但可能会造成可恢复时间段丢失。
    • 检查实例与OBS桶网络连通性。

      具体请参考检查实例到OBS网络是否连通,如果是网络不通,请联系网络人员修复OBS网络。

    • 检查OBS是否异常。

      联系底层人员确定OBS使用空间是否已满或者OBS出现故障。

    • 如果是OBS异常相关原因。

      联系OBS服务运维修复,修复完成后,在“告警 > 告警管理 > 当前告警”中找到之前处理的告警。

      勾选该告警,单击右上角清除,在弹出框单击“是”,即可完成告警清除。

      如果仍旧产生该告警,执行9

    • 其他情况,请执行9

  9. 参考下载管理节点日志收集日志,并收集告警信息,联系技术支持进行处理。

    需要下载的日志信息有:

    管理侧:

    • DBS-GaussDB-backupmanager组件下的日志。
    • DBS-GaussDB-instancemanager组件下的日志。

    租户侧:

    Agent组件下的:

    • /home/Ruby/log/request_agent.log
    • /home/Ruby/log/kafka_client.log
    • /home/Ruby/log/obs_utils.log
    • /home/Ruby/log/om_agent/agent.log
    • /var/log/message
    • /home/Ruby/log/adaptor_log/om_adaptor.log

    GaussDB Kernel组件下的:/var/lib/log/Ruby

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值