渔1.要你命三千-宕机问题面面观
amosryan
这个作者很懒,什么都没留下…
展开
-
NO.24 要你命3000-宕机问题面面观:0.开篇
要你命3000,这个系列为什么起这个名字? 系统上线后产生的严重问题一般都表现为系统不可使用(server shutdown)。down,翻译过来叫“宕机”(还有个不规范但流行的翻译:“当机”)。 对于使用者也就是我们的客户,半小时甚至是几分钟的宕机造成的经济损失可能都会在百万级甚至千万级以上。而对于系统性能负责人来说,发生系统宕机,根据严重程序公司也有相应的惩罚,动辄原创 2010-04-22 11:01:00 · 974 阅读 · 0 评论 -
NO.28 要你命3000-宕机问题面面观:1.最简单定位分析方法
(待完善) 一旦系统宕机,就需要尽快定位问题原因,尽快处理。如果有装一些三方的系统监控软件当然最好,没有的话,也可以按以下几种最简单的方式大致定位问题所在。 (以下说明暂基于Weblogic816、Solaris) 如同破案一般,我们需要了解案发现场,那么最好的现场信息莫过于系统临死前的都有谁访问了他——1.获得线程Url信息 1.1 如果此应原创 2010-05-14 14:16:00 · 934 阅读 · 0 评论 -
NO.29 要你命3000-宕机问题面面观:2.案例-死循环
某年某月某日,客户硬件工程师发来消息:现在服务器的4颗CPU有3颗100%运转,磁盘IO很低。 以下是分析定位过程: 1.发生这种情况,一般(99.99999%)是出现死循环了 2. 根据NO.28宕机问题简单定位分析法 中1.1查看长时驻留的请求URL,终于发现一个与当时前几天新更新的一个功能有关,一路追查下去,发现了下面的代码。 卖个关子,原创 2010-05-14 15:46:00 · 793 阅读 · 0 评论 -
NO.30 要你命3000-宕机问题面面观:3.案例-三方交互未设置连接、读取超时时间
某年某月某日,客户的一个负责人跑过来说,系统登不上去了。 1.第1招(NO.28宕机问题简单定位分析法 1.1查看长时驻留的请求URL):马上打开IE访问weblogic console,发现登不上去; (如果能登上去,你会看到 Execute Threads中可能80~90%为同一个URL) 2.第2招 (NO.28宕机问题简单定原创 2010-05-16 12:16:00 · 1029 阅读 · 0 评论 -
NO.33 要你命3000-宕机问题面面观 4.案例-获取全表数据致OOM
某年某月,这个月里发生了几次应用OOM,时间上一般发生在业务繁忙期(应用采用SUN JDK1.4.2.18 ,-Xmx2560m,一般观察繁忙期的JVM消耗最多也就到500m)。 总算有一次实时观察JVM内存图时(NO.28宕机问题定位分析法 2.查看JVM监控图),重现了OOM现场:JVM消耗在不到一分钟里从400多m冲到了上限。赶在JVM到顶前看了下URL访问表(NO.原创 2010-05-26 10:22:00 · 905 阅读 · 0 评论