Support for Oracle RAC 框架资源组故障
本节介绍可能会影响 Support for Oracle RAC 框架资源组的一些问题。
在 Support for Oracle RAC 初始化期间节点出现紧急情况
如果在 Support for Oracle RAC 初始化期间发生致命问题,节点将出现紧急情况,并显示类似如下的错误消息:
panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago
描述:
在重新配置期间,UCMM 所控制的组件将错误返回到 UCMM。
Cause:
导致出现此问题的最常见原因如下所述:
在 Support for Oracle RAC 初始化期间,节点还可能会由于重新配置步骤已超时而出现紧急情况。有关更多信息,请参见因超时导致节点出现紧急情况。
注 -
如果节点是全局群集的全局群集节点,则节点紧急情况将导致整个计算机关闭。如果节点是区域群集节点,则节点紧急情况只会导致该特定区域关闭,其他区域不受影响。
ucmmd 守护进程无法启动
UCMM 守护进程 ucmmd 用于管理 Support for Oracle RAC 的重新配置。引导或重新引导群集时,只有在验证 Support for Oracle RAC 的所有组件之后,才会启动该守护进程。如果某个节点上的组件验证失败,则 ucmmd 守护进程将无法在该节点上启动。
导致出现此问题的最常见原因如下所述:
在某个 Support for Oracle RAC 组件的先前重新配置期间出现错误。
先前 Support for Oracle RAC 重新配置过程中的某个步骤超时,从而导致发生超时的节点出现紧急情况。
如何从 ucmmd 守护进程或相关组件的故障中恢复
要确定问题产生原因,请检查 UCMM 重新配置日志文件和系统消息文件。
有关 UCMM 重新配置日志文件的位置,请参见诊断信息源。
检查这些文件时,从最新消息开始,然后向后追溯,直到确定问题产生原因。
有关可能指示重新配置错误产生原因的错误消息的更多信息,请参见Oracle Solaris Cluster Error Messages Guide。
更正导致组件将错误返回到 UCMM 的问题。
例如:
如果重新配置步骤已超时,请增加用于指定步骤超时时间的扩展属性的值。
如果问题的解决方案需要重新引导,则重新引导出现问题的节点。
只有特定问题的解决方案需要重新引导。例如,增加共享内存量需要重新引导。但是,增加步骤超时值不需要重新引导。
在出现问题的节点上,先使 Support for Oracle RAC 框架资源组脱机,然后再使其联机。
此步骤会使用您所做的配置更改刷新资源组。
承担 root 角色或承担可提供 solaris.cluster.admin RBAC 授权的角色。
键入以下命令以使 Support for Oracle RAC 框架资源组及其资源脱机。
# clresourcegroup offline -n node rac-fmwk-rg
–n node
指定出现问题的节点的节点名称或节点标识符 (ID)。
rac-fmwk-rg
指定要使其脱机的资源组的名称。
键入以下命令以使 Support for Oracle RAC 框架资源组及其资源联机并处于受管状态。
# clresourcegroup online -eM -n node rac-fmwk-rg