近日,核心系统Oracle数据库集群的一个节点,多次出现Active Session超过100甚至超过300的现象,每次持续时间都是10秒左右,甚至只持续5秒以内…… 时间太短暂,我都来不及看清你的脸…… 头疼!
16:43:57 正常状态
16:44:58 发现LGWR 堵塞大量会话
16:45:08 堵塞情况依旧
16:45:19 恢复正常
系统在20秒时间内,由正常状态,一下切换到异常状态,Oracle Active Session在节点2上迅速超过300, 并且很快恢复……
整个"异常”过程20秒,短暂到我们的REMS2 监控报警组件都没有发现这个异常(监控为了避免对系统的干扰,每2分钟检查会话情况)……
还好有DPA-Lite, "事后"仍然可以进行"秒"级别状态回放…… 让我们知道当时发生了什么,利用DPA-Lite 就是十几分钟的事情,就可以知道LGWR产生了大量堵塞——如果没有DPA-Lite这样合适的工具,难以想象我们需要多久才能知道“作乱”的原来是LGWR……
DPA-Lite Operation Screen Record.