postmoterm(线上问题回归总结反思)
- 时间经过:详细描述,从发生,到找到原因,上线。
- 问题原因:出现问题的原因。
- action:出现问题后,所采取是一系列寻错,解决的措施
- 说明处理此事件的人员,时间,如何处理的
例子:
一、 问题的详细描述,根据情况而定
-
时间经过(X月X日):
a) XX点收到群里反馈新增地址国家列表无显示,自测复现问题。
b) XX 远程vpn连到内网,检查代码逻辑,怀疑中台无数据返回,XXX联系中台接口方XXX排查接口。
c) XX 中台反馈接口正常。检查代码发现controller层有redis缓存一天数据的逻辑。联系XXX检查线上缓存,缓存返回数据为空。
d) XX 修改完成缓存判断逻辑,并发布预发。手动执行接口写入正确的缓存数据。
e) XX校验线上功能,恢复正常。 -
问题原因:
a) 由于线上有已经存在正常的缓存数据,且有效期一天,导致接口在自测和回归时无法测出问题,缓存失效后才出现bug.
b) 缓存数据存放逻辑存在问题,当接口没有返回数据的时候也缓存起来了。 -
Action
a) 检测项目里面缓存的逻辑,避免过长的缓存数据。(XXXX 完成时间:X月X日)
b) 代码review ,检查缓存是否设置合理(XXXX 完成时间:X月X日) 加入review清单