线上问题
文章平均质量分 55
Silence-wen
不被嘲笑的梦想是不值得去实现的。。。
展开
-
【记一次线上事故的排查思路】- CPU飙升问题排查
第6步有标注出现问题的具体某一行代码,然后进行排查,发现是一段做动态计算的代码,遂进行修改,加上计算时间显示,大于某个时间没计算出来则终止计算。由于是线上导致的问题,CPU超限后,会自动重启项目,未能保留现场,这样就给排查问题带来了困难。问题来了,上线三天后,线上CPU总是莫名奇妙的突然飙升,飙升后CPU并未降下来,而是一直处在高点。代码修改完发布到UAT环境再次进行压测,这次不在出现CPU突然飙升的情况,搞定!果不其然,在压测一段时间后,复现了CPU飙升的问题。当时没保留每一步的操作截图( ̄▽ ̄)"原创 2024-01-23 17:09:07 · 510 阅读 · 0 评论 -
【记一次线上事故的排查思路】- 线程阻塞问题排查
从线程池监控中看出,任务主要堆积在ip为“127.0.0.1”这台服务的阻塞队列中,在14:10分下线后,经过一个小时的时间,在没有新请求打进14服务器的同时,发现服务在调用某个接口时当前服务设置的超时时间未生效,改造httpTemplate,使超时时间生效,并根据以往请求接口的响应时间,设置超时时间为8秒。为了证实猜测是对的,于是紧急写了一个接口用于查看现场池状态,包括监控线程队列,当前任务数,正在执行任务数,以及任务完成数。继续日志优化,打进的请求要加上线程池信息。为以后出现问题时提供排查路径。原创 2024-01-20 16:59:46 · 535 阅读 · 0 评论