某日接到一个case,具体是用户反映前台业务很慢,用户前台做业务时会停顿3-4s左右,
而数据库出现大量的log file 等待及ENQ:HW等待,
Awr信息如下
数据库的等待事件如下:
当时数据库的读写并不大,redo的写为
1618396/1024/1024=1.5M/S
上面的awr显示了'log file sync' 和 'log file parallel write' 都有很高的等待时间
log file parallel write 平均时间为43毫秒
log file sync平均时间为74毫秒
在oracle support 文档上说明如下:
如果'log file sync'的时间消耗在'log file parallel write'上的比例高,那么大部分的等待时间是由于 IO(等待 redo 写入)。应该检查 LGWR 在 IO 方面的性能。作为一个经验法则,'log file parallel write'平均时间超过 20 毫秒, 意味着 IO 子系统有问题。
(此值是oracle官方文档{故障排除:"log file sync"等待 (文档 ID 1626301.1)}的说明)
在往下分析
数据库的tablespace IO如下:
如上awr Av Rd(ms)的指标,如果它高于20ms并且同时有很多读操作的,我们要开始从OS的角度调查是否有潜在的IO问题
官方文档说明如下:
(
| How to Tell if the I/O of the Database is Slow (文档 ID 1275596.1) |
通过上边的分析,查看主机层的存储message 果然有报错,主要原因是存储的cache版报错。
等存储修复完成。数据库恢复正常。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10201716/viewspace-2150743/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/10201716/viewspace-2150743/