故障排查
azbh111
这个作者很懒,什么都没留下…
展开
-
记一次线上OOM排查及调优过程
通过异常邮件,发现线上定时任务服务产生了OOM: java.lang.OutOfMemoryError:Javaheapspace发现异常后,先重启线上服务,然后把未执行的定时任务恢复。查看gc信息,发现项目启动没多久,平均200秒一次FullGC> jstat -gcutil 6 S0 S1 E O M CCS YGC YGCT FGC FGCT GCT 0.00 25.85 66.86...原创 2022-03-28 17:09:16 · 553 阅读 · 0 评论 -
记一次线上RocketMQ消息堆积排查过程
今天运营同事报告了一个问题,有用户使用兑换码兑换课程后,在课程列表里看不到课。首先排查日志,发现兑换课程的MQ消息发送出去了,但没有被接收。进入阿里云控制台查看MQ消息队列,发现堆积了一千多条消息,很多消息一次都没有投递。查看Consumer服务,负载很低,服务正常运行。查看服务日志,几分钟前才消费了一条消息。对比这条消息和其中积压的一条消息,Topic相同,Tag相同。说明不是MQ配置发生了变化,且当前服务能正常消费消息。但积压的消息为什么消费不了呢?查看消息开始积压的时间点是16号,原创 2021-12-21 21:43:01 · 1382 阅读 · 0 评论 -
记一次预发布环境网络极不稳定的排查流程
我司从合作伙伴那里接手了一个项目。测试同学返回预发布环境请求极不稳定,请求超时概率非常大。于是我便进行故常排查。项目请求路径: 1. 域名解析到slb 2. slb把请求负载均衡到gateway物理机80端口(1台)3. gateway物理机内的nginx监听80端口,对请求进行转发 4. api-gateway服务运行在gateway物理机内的docker中,监听物理机的9004端口 5. nginx将请求转发...原创 2021-11-11 16:05:19 · 1741 阅读 · 0 评论