一周前,监控系统不间断的报警,提升有大规模访问超时的情况,自从上次架构升级后,我们将部分公共业务剥离至网关,所有的流量都过网关,所以在网关层面做了一层无死角的监控,对任何业务的业务、系统异常都能全部覆盖到。结合可伸缩的监控报警策略,可以实时的报警,从而快速介入。以下是报警:
查看一下报警的详情,都是一类访问接口导致的,点开看下报警详情:网关转发时报502错误,这个错误是nginx爆出来的,因为后面的服务是rest访问,除了40x和200,不会报50x,而且nginx报50x,猜测应该是nginx upstream时超时了。
最近运营活动很多,带来的量很大,表现就是平台的日活突然提升,而且在产品的上线发售时间前后有一个很明显的尖峰,从系统的负载上来看:
11点后有个明显的负载瞬间提升,然后慢慢降下来,从nginx访问来看:
访问飙升为平时的十几倍,而5xx的状态码也是瞬间增加了十几倍(这也是报警中状态码502的来源),nginx的这个图下面的部分就是超时请求的一个表现,和负载有个很明显的关联,结合网络流量等,都可以印证(图省略掉了),就是q