现象 15年5月25日下午6:30分,我们的QA收到我们的一个线上项目页面一定概率会出现ERROR页面。 当时问题分析及处理方案 此页面是nginx的error页面,并不是我们业务的500页面。通过每台机器ip直接访问,发现 其中有一台机器挂了。马上联系运维同学,重启tomcat后正常。 事后问题排查 1.查看业务log4j 日志