线上事故分析
文章平均质量分 54
线上事故分析
面朝大海春暖花开~
这个作者很懒,什么都没留下…
展开
-
线上慢sql排查
背景:随着业务量上升,数据量越来越大,今天sql监控平台预警出一条慢sql,耗时约2.8s左右,如下:SELECT * FROM table_a WHERE create_time BETWEEN '2021-03-04 17:10:00' AND '2021-04-05 17:10:00' AND status = 1 AND MOD(id,8)=6 AND deleted = 0表中索引:create index idx_create_time_status o原创 2021-04-07 16:52:49 · 477 阅读 · 0 评论 -
cpu暴增排查
写了一段测试程序,然后开始执行: @RequestMapping("/for") public String for1() { List list = new ArrayList(); while (true){ list.add(new Byte[1]); log.info("list:{}",list.size()); } }首先使用top命令查看:可见PID为1554的java进程原创 2021-04-02 16:34:29 · 199 阅读 · 0 评论 -
线上内存泄露排查
背景:上周网关上线后,隔了几小时突然服务不可用,重启后恢复,隔几小时后依然如此;由于此次网关改动的代码较多,一时不好定位。问题回放:从系统监控图上看,内存一直在增长,最终到爆;抓取到服务器宕机时刻的日志如下:o.netty.util.internal.OutOfDirectMemoryError: failed to allocate看到以上的日志,大体可以知道是直接内存分配不足导致,与系统监控图上看比较吻合;从系统监控图可以看出,自从服务上线后已用内存就一直在申请、上升,没有释放,那原创 2021-03-26 15:31:11 · 873 阅读 · 0 评论 -
使用eclipse分析线上堆内存溢出
背景:昨晚上完线之后,服务不定时出现响应慢,过一会直接不可用;重启之后恢复正常;过一会问题依旧如此;问题回放初步怀疑是fullgc导致,于是下载gc.log文件通过https://gceasy.io/进行在线分析,经分析确实出现了fullgc问题;如下图:联系运维导出导出dump文件(jmap),并使用了服务器上的eclipse进行dump文件分析:具体分析步骤如下:1、首先eclipse要安装memory analyzer插件;点击eclipse help–>markerplace在原创 2021-03-25 20:55:38 · 304 阅读 · 0 评论 -
记一次rocketmq事务消息使用不当造成线上事故
场景:最近rocketmq事务消息使用不当导致了线上问题;现象为本地事务执行失败,但是半消息还被发送出去了,最终导致了数据不一致;rocketmq事务消息执行步骤:原创 2021-03-25 19:49:56 · 903 阅读 · 0 评论