环境:
一个单位的HP DL580 G3 (300G*6 10Krpm RAID-5,Smart Arry 6i)
Oracle 10.2.0.1 裸机
RHEL 3.4 32Bit
6月份刚接手的这台机器,本来想升级11G,但一直没有时间可以搞,经过持续优化
Load Profile中每秒逻辑读/物理读都大幅度下降。CPU Idle平均值在94%
9月5日上午突然被电话骚扰,登上一看,出现若干Checkpoint Not Complete事件,
当时只有三个50M的在线重做日志组(每组两个Member),其中两个都已经Active,
临时加上3个200M的在线重做日志后,产线慢慢恢复正常了。
ASH/AWR报告分析发现Log File Sync和Log File Parallel Write等待事件大幅度增加,
Top 5 Event中这两者相加接近60%。
先砍掉一个在线重做日志组的Member,又反复调整在线重做日志的位置,但IO似乎
一直没有改善。Top中IO等待一直很高,Top 5 Event也没有任何好转。调出这台机
器一天的AWR报告分析,发现自9月5日上午异常过后,Log File Sync平均等待时间
突然从7-9ms增加到接近20ms。
当时就怀疑阵列卡出了问题,但这机器根本没有装HP的管理软件,无法看到阵列卡状
态,又不能停机重启。。。没办法只能找开发拼命修改SQL降低物理读。
今天Google一下终于找到HP的阵列卡命令行管理工具,rpm安装后发现阵列卡电池已
挂掉,阵列卡的Cache被禁用,这问题终于找到Root Cause。老机器该退休就要退休,
进入管理行工具后用如下命令查看阵列卡状态
controller all show status
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/38267/viewspace-743189/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/38267/viewspace-743189/