link:
http://www.eygle.com/case/sga2.htm
案例描述:
这是一个大型生产系统
问题出现时系统累计大量用户进程
用户请求得不到及时响应,新的进程不断尝试建立连接
连接数很快被用完
数据库版本:9.2.0.3
操作系统:Solaris8
1.检查alert文件
日志中记录如下错误信息,说明磁盘异步IO出现问题:
|
我们知道在SUN的某些版本上异步IO存在问题
而异步IO缺省是打开的
SQL> show parameter disk_a |
针对此问题,我们停用了数据库的异步IO写入。
2.共享内存问题
alert文件中还记录了以下错误信息:
|
该信息说明内核参数设置过小或者和SGA不匹配
我们检查system配置文件
|
我们发现最大共享内存设置仅有4G
3.检查SGA设置
|
我们发现SGA设置接近7G,这也就是步骤2中错误提示出现的原因
4.交换区问题
我们用top工具检查系统运行状况
|
Memory: 8192M real, 118M free, 12G swap in use, 11G swap free
我们发现系统仅有8G RAM,物理内存仅有118M可用
现在SWAP区使用了12G
我们初步作出以下判断:
SGA设置过大(将近7G)导致运行时产生大量交换
大量SWAP交换进而引发磁盘问题
这也就应该是我们第一步看到
WARNING: aiowait timed out 1 times
的原因
大量交换导致数据库性能急剧下降
进而导致用户请求得不到快速响应,堵塞、累积,直至数据库失去响应
5.解决方案
此问题主要是由于SGA设置不当引起,我们马上缩小了SGA设置:
SQL> show sga
Total System Global Area 3591870848 bytes
Fixed Size 735616 bytes
Variable Size 1442840576 bytes
Database Buffers 2147483648 bytes
Redo Buffers 811008 bytes
此时,数据库减少了交换,达到了稳定运行,用户请求可以得到快速响应。
问题解决完成.
6.系统状态
调整后系统运行状况:
$ top last pid: 12745; load averages: 0.46, 0.79, 0.65 22:22:49 228 processes: 227 sleeping, 1 on cpu CPU states: 92.3% idle, 5.0% user, 1.6% kernel, 1.1% iowait, 0.0% swap Memory: 8192M real, 3817M free, 4015M swap in use, 15G swap free PID USERNAME THR PRI NICE SIZE RES STATE TIME CPU COMMAND 12610 oracle 1 51 0 3511M 22M sleep 0:04 1.96% oracle 12595 oracle 1 48 0 3511M 22M sleep 0:03 0.92% oracle 12630 oracle 1 38 0 3511M 21M sleep 0:01 0.84% oracle 12614 oracle 1 46 0 3511M 22M sleep 0:01 0.64% oracle 12620 oracle 1 58 0 3511M 22M sleep 0:01 0.53% oracle 12709 oracle 1 48 0 3511M 21M sleep 0:00 0.45% oracle 265 root 11 38 0 7032K 1920K sleep 3:16 0.42% picld 12729 oracle 1 0 0 3511M 20M sleep 0:00 0.26% oracle 12741 oracle 1 58 0 2768K 1760K cpu/3 0:00 0.19% top 12745 oracle 1 44 0 3506M 16M sleep 0:00 0.17% oracle 12711 oracle 1 48 0 3506M 16M sleep 0:00 0.11% oracle 12738 oracle 1 43 0 3506M 16M sleep 0:00 0.06% oracle 7606 oracle 1 45 0 17M 6928K sleep 0:07 0.05% tnslsnr 12721 oracle 1 34 0 3506M 16M sleep 0:00 0.05% oracle 12723 oracle 1 53 0 3506M 16M sleep 0:00 0.05% oracle |
该系统调整完以后,一直稳定运行至今.
一点总结:
这个案例和前面我提到的另外一个极其相似
同样都是SGA设置不当引起的数据库问题
本身并不复杂
这一类问题应该在数据库规划和建设阶段就避免掉.
其时,该问题对我更像是个心理测试
当所有老板都站在你背后的时候,你能否冷静快速的找到并解决问题.
关于SUN上的aiowait timed out 有很多总情况及诱因
我后面还有相应的案例说明 .
-Eygle