要你命3000,这个系列为什么起这个名字?
系统上线后产生的严重问题一般都表现为系统不可使用(server shutdown)。down,翻译过来叫“宕机”(还有个不规范但流行的翻译:“当机”)。
对于使用者也就是我们的客户,半小时甚至是几分钟的宕机造成的经济损失可能都会在百万级甚至千万级以上。而对于系统性能负责人来说,发生系统宕机,根据严重程序公司也有相应的惩罚,动辄几个月的月薪一扣,这于公于私,你说要命不要命?
因此,将本人曾经碰到的那些线上宕机事件及其分析解决的过程做个总结,一方面希望和大家一起交流共同进步,一方面提醒大家未雨绸缪以免重蹈覆辙。
宕机成因多种多样——想起《国产007》里达文西(罗家英)的伟大发明:“要你命3000”,觉得还蛮切题的,故为此名:)
(由于目前本人所接触的系统均是JSP-Based的Web应用,所以下文中若不另外提及,相关环境一般是指Weblogic8、Oracle9i、UNIX-Based操作系统)。
宕机一般是由于某种资源的使用达到了它的上限,而成为性能瓶颈造成系统无法正常运行。那么一个Web系统所涉及的资源有哪些呢?
1.CPU:
2.Memory:
3.DiskSpace:
4.其它各种各样的上限
比如:网络带宽、WebLogic8里的最大线程数、最大数据库连接池数;Oracle的最大会话数、最大游标数等等等等……
下篇再写下一般系统监控及问题分析方法吧:)
NO.28 要你命3000-宕机问题面面观:1.最简单定位分析方法