核心系统某业务超时的问题分析

hijk139

于 2013-10-23 15:39:06 发布

阅读量2.4k

点赞数

分类专栏： oracle 问题处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hijk139/article/details/12972151

版权

oracle 同时被 2 个专栏收录

63 篇文章 0 订阅

订阅专栏

25 篇文章 0 订阅

订阅专栏

问题描述：

2012年3月某日日，业务返回“调用失败或用户密码错误” 5579次，其中在11点通知业务部门系统恢复后为4396次，全天共查询号码次数为26553次，其他数据可参考附件

原因分析：

采用自底向上的分析方法

1，看硬件和日志，通过前面的方法论，硬件无报错，日志无异常；

2，操作系统资源利用率不超过60%，不存在资源不足的情况；

3，分析等待事件，从3月5日起，开始出现大量latch free等待事件，很可能和此时业务超时有关

4，由于oracle 9i版本的限制，相关statspack报告没有按照时间模型来排序（资源消耗排序），通过只有脚本按照时间排序，定位到可疑sql

5，对可疑sql(3274434087)分析执行计划和趋势分区，执行计划问题不大，但是执行速度却是越来越慢，并且执行时间慢的时间和故障时间非常吻合

6，通过业务部分确认，该sql即为空选空写相关业务sql，随着业务量（对应于该sql执行次数）和表中数据量的增加，执行速度越来越慢，当执行时间超过1秒（业务逻辑设计）时即超时，报错“调用失败或用户密码错误”；

优化方案

问题找到了，解决问题的方法也就相对容易了。按照优化的方法论，由于执行执行计划无明显问题，最终根据空选空写业务的业务特点进行如下优化措施

1， Where条件选择性不足，选出的号码数据过多，需要增加必要的选择条件

2，不必要的Order by排序操作，消耗大量系统资源，建议取消排序操作

优化效果

经分析，数据库的异常等待时间latch明显减少。

主机CPU利用率降低了10%

后续：3月26日，异常sql再次出现，cpu利用率再次增加，联系业务部分，是业务部署导致，28日重新部署后解决

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hijk139 CSDN认证博客专家 CSDN认证企业博客

码龄17年

130: 原创

18万+: 周排名

163万+: 总排名

67万+: 访问

: 等级

7436: 积分

44: 粉丝

54: 获赞

28: 评论

66: 收藏

私信

关注

热门文章

分类专栏

oracle 63篇
oracle RAC 19篇
unix/linux 24篇
其它 4篇
问题处理 25篇
数据迁移 7篇
脚本 1篇
OEM 3篇
hadoop 9篇
flume 5篇
DB2 1篇
SQL SERVER 1篇
mysql 4篇

最新评论

ORACLE RAC环境下复制多个control file
Lucifer三思而后行: 天若有情天亦老,来我博客看看可好
一次sql server数据库的恢复过程
wang哥: 也可以直接从mdf里面提取table ,procedure,view等，生成新的数据库。再附加即可。QQ：80554803
使用expect实现批量操作的自动化
yebai: 学习了～～
oracle连接由于防火墙设置导致超时的问题
hijk139: 更详细的参数介绍可以参考这篇文章 http://www.ibm.com/developerworks/cn/aix/library/0808_zhengyong_tcp/index.html
oracle连接由于防火墙设置导致超时的问题
测试小金刚: 您好，我这边也遇到了这种情况，因为空闲连接被断开导致应用报错，我想问一下，您具体是怎么调下面这四个参数的：对空闲连接的未使用超时和时效超时（小于防火墙的配置）现有连接有效性测试的相关次数和间隔时间配置

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。