对系统的影响
影响主备切换RTO,影响主机TPS。DN服务异常可能会触发DN失效切换,切换后可能存在主备不均衡问题,需要及时修复并在业务低峰期做主备均衡操作。
可能原因
- DN节点所在服务器故障。
- DN节点所在服务器网络故障。
- DN节点进程损坏。
处理步骤
- 根据告警信息中的节点ID,参考登录实例节点登录数据库节点。
- 如果能登录上,按照2到5 进行检查修复。
- 如果不能,执行如下步骤进行节点替换。
- 登录DBS运维管理平台。
- 在“实例运维 > 实例管理”页签根据实例ID找到实例。
- 单击实例名称,进入“GaussDB基本信息”页面。
- 根据告警信息中的节点ID,在“节点列表”模块中找到对应节点。
- 单击节点名称,进入节点基本信息页面,获取到服务器资源参考查看实例节点状态,确认服务器是否正常。
- 如果服务器异常,则参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节替换故障节点。如果替换失败,请执行6。
- 如果服务器正常,则请执行以下步骤。
- 执行如下命令,查看DN进程是否存在(如图所示DN进程存在)。
ps -ef | grep dn
分布式:
主备版:
- DN进程如果不存在,则参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点修复”章节修复故障节点。
- 如DN进程存在,执行4。
- 执行如下命令,导入环境变量。
source /home/Ruby/gauss_env_file
- 在Ruby用户下执行如下指令,查看DN的状态。
cm_ctl query -Cvd
- 如果存在DN节点状态不是Normal状态,执行5。
- 如果集群状态为Normal,系统已经自动修复,无需进行后续步骤。
- 执行如下指令查看DN所在节点是否网络异常。
cm_ctl query -Cvid
ping node_ip
node_ip如上图中其他节点的IP。
- 如果网络不通,请联系网络人员修复。
- 如果DN网络状态都正常,参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点修复”章节修复故障节点。如修复失败,则执行6。
- 参考收集日志,下载节点日志,并收集告警信息和配置信息,联系技术支持进行处理。
需要下载的日志信息有:
- Agent组件下的/var/log/message
- GaussDB Kernel组件下的/var/lib/log/Ruby
- 告警处理结束后,参考查看集群主备分布是否均衡,检查当前集群是否存在主备分布不均衡的情况。
如果存在主备分布不均衡的情况,参考《云数据库 GaussDB 24.1.30 维护指南(for 华为云Stack 8.3.1)》中的“运维指南 > DBS运维管理平台操作指南 > 实例管理 > GaussDB实例信息 > 主备分布均衡”章节,手动将实例的主备分布状态恢复到初始的均衡状态。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。