告警解释
数据库实例内核发现异常情况,产生此告警。具体告警处理流程需结合《GaussDB 内核告警补充说明》处理。
告警属性
告警ID | 告警级别 | 告警类型 | 告警归属 | 业务类型 | 是否可自动清除 |
---|---|---|---|---|---|
5014998 | 重要 | 业务质量告警 | 租户面 | 云数据库 GaussDB 节点 | 否 |
告警参数
类别 | 参数名称 | 参数含义 |
---|---|---|
定位信息 | 云服务 | 产生告警的云服务 |
instanceId | 产生告警的实例ID | |
nodeId | 产生告警的数据库节点ID | |
{id:xxxx, name:xxxx, detail:xxxx, level:xxxx} | id:内核告警ID name:内核告警名称 detail:内核告警描述 level:内核告警级别 | |
附加信息 | 租户名称 | 产生告警的租户名称 |
实例名称 | 产生告警的实例名称 | |
租户ID | 产生告警的租户ID | |
云服务 | 产生告警的云服务 | |
服务 | 产生告警的服务 | |
微服务 | 产生告警的微服务 | |
告警源IP | 告警源IP | |
节点角色 | 产生告警节点的节点角色 |
其中针对表1展示的内核告警,以独立事件告警的形式上报,且不会自动恢复。处理完告警后,需要在“告警 > 告警管理 > 当前告警”页面,选中告警,单击页面上“清除”,手动清除该条告警。
其他告警信息汇聚成一条云数据库 GaussDB内核告警,该条告警可能包含多个内核告警,仅当所有内核告警全部修复时,该条告警才会自动清除。
内核告警名称 | 告警名 |
---|---|
DatanodeSwitchOver | 云数据库GaussDB DN主备切换事件告警 |
DatanodeFailOver | 云数据库GaussDB DN失效切换事件告警 |
GTMSwitchOver | 云数据库GaussDB GTM主备切换事件告警 |
GTMFailOver | 云数据库GaussDB GTM失效切换事件告警 |
ServerSwitchOver | 云数据库GaussDB CM_SERVER实例发生主备切换事件告警 |
BuildEvent | 云数据库GaussDB 触发DN build事件告警 |
ForceFinishRedo | 云数据库GaussDB Datanode强制停止Redo事件告警 |
CustomResourceError | 云数据库GaussDB 自定义资源故障告警 |
对系统的影响
云数据库 GaussDB 内核告警配置了30+种场景的异常告警,系统影响情况不同,根据告警信息中的“name”字段,来区分具体的内核告警内容,并参考定位信息结合《GaussDB 内核告警补充说明》处理。
可能原因
详细告警信息以《GaussDB 内核告警补充说明》为准。
处理步骤
根据告警的定位信息描述,根据告警定位信息中的“name”字段,来区分具体的内核告警内容,参考《GaussDB 内核告警补充说明》处理告警。name对应的具体内核告警对应表如下所示。
name列内容 | 内核告警信息 | 告警项 |
---|---|---|
AbnormalGTMInst | ALM_AI_AbnormalGTMInst | GTM实例异常。 |
AbnormalDatanodeInst | ALM_AI_AbnormalDatanodeInst | DN实例异常。 |
AbnormalGTMProcess | ALM_AI_AbnormalGTMProcess | GTM进程异常。 |
AbnormalCoordinatorProcess | ALM_AI_AbnormalCoordinatorProcess | Coordinator进程异常。 |
AbnormalDatanodeProcess | ALM_AI_AbnormalDatanodeProcess | DN进程异常。 |
DatanodeSwitchOver | ALM_AI_DatanodeSwitchOver | DN主备切换。 |
DatanodeFailOver | ALM_AI_DatanodeFailOver | DN失效切换。 |
GTMSwitchOver | ALM_AI_GTMSwitchOver | GTM主备切换。 |
GTMFailOver | ALM_AI_GTMFailOver | GTM失效切换。 |
AbnormalGTMSocket | ALM_AI_AbnormalGTMSocket | GTM实例SOCKET异常。 |
TransactionReadOnly | ALM_AI_TransactionReadOnly | 数据库只读。 |
UnbalancedCluster | ALM_AI_UnbalancedCluster | 集群平衡状态异常 |
AbnormalCMAProcess | ALM_AI_AbnormalCMAProcess | CM_AGENT进程异常。 |
AbnormalCMSProcess | ALM_AI_AbnormalCMSProcess | CM_SERVER进程异常。 |
AbnormalCmaConnFail | ALM_AI_AbnormalCmaConnFail | CM_AGENT连接数据库服务失败。 |
AbnormalPhonyDead | ALM_AI_AbnormalPhonyDead | DN实例、GTM实例、CN实例出现假死异常。 |
AbnormalETCDProcess | ALM_AI_AbnormalETCDProcess | ETCD进程异常。 |
AbnormalEtcdUnhealth | ALM_AI_AbnormalEtcdUnhealth | ETCD集群不健康。 |
AbnormalEtcdDown | ALM_AI_AbnormalEtcdDown | ETCD异常。 |
AbnormalDataInstDisk | ALM_AI_AbnormalDataInstDisk | DN实例磁盘异常。 |
AbnormalBuildFail | ALM_AI_AbnormalBuildFail | DN实例build失败。 |
BuildEvent | ALM_AI_BuildEvent | DN实例进行build。 |
ServerSwitchOver | ALM_AI_ServerSwitchOver | Server主备切换。 |
AbnormalEtcdNearQuota | ALM_AI_AbnormalEtcdNearQuota | ETCD磁盘数据文件过大。 |
StorageDilatationAlarmNotice | ALM_AI_StorageDilatationAlarmNotice | 数据扩容接近配额。 |
StorageDilatationAlarmMajor | ALM_AI_StorageDilatationAlarmMajor | 数据扩容已达配额。 |
StorageThresholdPreAlarm | ALM_AI_StorageThresholdPreAlarm | 磁盘空间接近配额。 |
ForceFinishRedo | ALM_AI_ForceFinishRedo | 强制停止Redo。 |
PgxcNodeMismatch | ALM_AI_PgxcNodeMismatch | CN系统表不一致。 |
StreamingDisasterRecoveryCnDisconnected | ALM_AI_StreamingDisasterRecoveryCnDisconnected | 流式容灾CN断连。 |
StreamingDisasterRecoveryDnDisconnected | ALM_AI_StreamingDisasterRecoveryDnDisconnected | 流式容灾DN断连。 |
CmsCnDrop | ALM_AI_CmsCnDrop | CN剔除。 |
CmsCnRepair | ALM_AI_CmsCnRepair | CN加回。 |
CnBuildEvent | ALM_AI_CnBuildEvent | CN加回build。 |
AbnormalProcess | ALM_AI_AbnormalProcess | 进程长时间异常。 |
CusResInstErr | ALM_AI_CusResInstErr | 自定义资源故障。 |
告警清除
此告警修复后,需要在当前告警页面手工清除此告警。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html