饿了么技术通告

事故时间：

2016年11月21日

事故现象：

APP端热卖美食链接打开提示“无推荐餐厅”

事故定级：

[P3]

事故原因：

写kafka和落地文件是都先转化为json格式，日志体又比较庞大，而写kafka&文件的线程池数量过小（最大），导致生产速度远远超过消费速度，

都积压在内存中，导致GC频繁并且GC作用不大。

事故责任人：

数据运营部

事故复盘：

11月21日

11:09 Noc&Banshee［监控工具］通知告警，接口响应时间超时，打开热卖美食页面，提示没有找到商家。

11:15 尝试重启，短时间恢复，但是不久之后迅速又进入超时状态。

11:20 查看Etrace［监控工具］，发现4台线上服务器Old GC时间均过长。

11:50 问题排查，再次尝试重启，之后响应时间慢慢恢复，原因是业务高峰已经过去。

11:54 业务曲线恢复正常

11月22日

00:30 问题排查，1. 初步排查问题是内存设置不合理（16g），选择一台尝试修改java最大内存数为12g，2 soa

worker线程数设置过小（单台50*4），导致QPS过高容易worker不够，后修改为单台线程200。

11:04 修改后的方案再次出现请求时间超时问题，尝试重启恢复后短时间再次出现超时。

11:14 跟踪异常日志发现一个异步写kafka&文件日志的线程池出现RejectedExecutionException报错，而这个写日志文件

是近期新上线的一个功能，作用是替换kafka方案，但是由于下游的日志文件落地方案还在进行中，所以原来的kafka方案还没有下线；紧急关

闭写kafka&文件，服务恢复正常。

11:28 由于算法统计需要，尝试重新打开feature日志写文件，服务正常。

11:32 再次打开kafka日志，服务迅速重新超时，紧急再次关闭，服务慢慢恢复正常。

改进方案：

1. 下线kafka写日志，只保留写日志文件。

2. kafka写由同步写修改为异步写。

3. 开发对新功能上线缺少必要的性能测试，对线上服务没有警惕性；再次强调线上服务的重要性。

4. 开发流程缺少必要Review过程，导致对于潜在的风险点没有及时发现，后续所有上线代码强制发送Merge Request并组内相互Review。

5. 强制上线大的feature必须进行性能测试。

6.GC加监控。

7.线程池队列，连接池，SOA队列，worker数量等参数设置合理。

事故现场：

46_meitu_1

事故上下文：

大数据热卖美食线上服务推荐需要将日志落地方式从kafka实时修改为通过文件定时传输。在文件落地方式完全替换kafka方案前，需要测试文件传输方案可行，同时线上kafka方案还需要存在用于落地数据，所以保留了两个方案同时存在。写文件和写kafka使用同一个后台线程池，同时写线程池处理速度小于生产速度，导致数据堆积在队列内，jvm堆内存迅速消耗殆尽。

注.

1.运营事故分级规范 v 1.2

2.关于事故赔偿规范及流程

饿了么技术通告

[201647][P4]饿了么技术通告－12月6日热卖美食返回商家列表为空事故

[201649][P2]饿了么技术通告－12月2日zookeeper故障事故

[201646][P3]饿了么技术通告－11月21日热卖美食返回商家列表为空事故

[201645][P4]饿了么技术通告－11月6日餐厅活动显示异常事故

[201644][P4]饿了么技术通告－11月4日 DAL（框架工具）单节点内存耗尽导致订单支付相关业务异常事故

[201643][P4]饿了么技术通告-11月1日餐厅列表无法刷出事故

[201642][P4]饿了么技术通告－10月25日某机房网络故障导致下单业务抖动

[201641][P4]饿了么技术通告－9月29日物流系统异常事故

[201640][P4]饿了么技术通告－9月18日某机房网络故障

【20160910】【CTO训练营*上海站专场】

饿了么技术通告

“相关推荐”对你有帮助么？