《DB2设计与性能优化 原理方法与实践》第27页
案例分析总结
接下来向大家共享一段工作笔记,其中回顾了“PAT树”在重大系统事故中,被应用于实践的现场记录。
2010年4月11日 笔记整理 地点:北京
凌晨4:15,移动通信系统性能优化现场,17位技术人员已连续工作9个多小时,此前在12:20和3:05已发生过两次险情。此刻,我快速迈入运维大厅。4:30,所有业务数据第三次加载到生产数据库上,所有人都盯着屏幕等待传回捷报,亦或是警报。
“话单无法生成!”负责测试的小白在大厅的另一端急呼。
“密码改不了!”“二级页面打不开!”“开户失败!”……
David、Chen和我三个人决定放弃原定计划,启动应急预案。41个业务分布在7台服务器上,现在要把出问题的2台主机切到备机上,结果发现一台服务器挂起。再次敲下“reboot”,等了10分钟,还是无法访问,此时桌上的几部电话铃声此起彼伏。
最先出问题的系统,是客户关系管理系统,涉及7000多万用户数据,有表2000张,视图3000个,存储过程5万行,总数据量超过300TB。繁重的工作量,但仅有12个工作日的优化期限,这个压力层层传递到我们。同时对于共同参与这个项目的7个单位来说,沟通协调也是一个很棘手的问题。最终,一个普通的性能优化项目,却演变成了数据库、硬件、网络和业务纠缠在一起的隐患问题大爆发。
我看了看表,对走过来的Chen说,现在要立刻启用“PAT树”,奋力一搏,力挽狂澜。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/25714482/viewspace-697485/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/25714482/viewspace-697485/