一、【影响范围】
服务A数据迁移上线,涉及服务B、服务C
二、【故障表现】
上线后发现服务B频繁响应超时或服务不可用, 严重影响用户正常使用
三、【处理过程】
接口查询数据的时候有字段未返回
四、【原因分析】
上线后服务B的pinpoint截图如下:
如图所示: 上线后服务B出现频繁的full gc.
同时出现大量的请求超时. 且超时的都是同一接口
通过代码发现:mongodb中某个文档中的nodes字段存储有信息项分组和信息项模版的配置, 导致查询超时,且内存飙高,每个文档在mongo中占用接近1m内存. 转换成java对象后,内存会占用增加一个量级
通过dump文件也基本印证了这个问题.
五、【改进措施】
设计mongodb数据结构的时候,避免过大的字段.如果会存在比较大的字段,那么在不需要的查询场景,需要过滤掉大字段。
在提交代码的时候, 需要仔细review,避免错误的修改代码。
在测试阶段,提早发现, 比如模拟线上流量的情况下,进行验证。