线上运维
扫雪去
哈哈哈
展开
-
case-主从延迟问题排查
一、背景突然有大量业务人员反馈,原有功能不好用。二、解决过程1. 查看数据状态马上查询数据库查询发现该数据valid字段状态不正确,所以不能进行正常功能的操作。2. 修复数据减少影响范围降低损失:由于不是我负责的业务,所以马上查看代码逻辑。找到补救状态而且不影响后续流程的方法,并且确定查找问题的日志都齐全不用保留现场,马上进行操作补救。三、问题分析上一步是为了临时解...原创 2018-10-25 21:26:25 · 316 阅读 · 0 评论 -
case-内存溢出
目录一、事件背景二、分析过程三、紧急处理措施四、发现问题及后续TODO一、事件背景多个服务突发连接超时报警,迅速查看报警原因发现是因为一个rpc服务的所有接口请求都超时了。二、分析过程发生事故这个服务不是由本人负责而是帮助组内其他小伙伴排查的问题。虽然不是我负责的服务但是由于是组内的服务并且经常会和这个服务打交道所以运行状况基本了解。)注:由于该文章是事...原创 2019-03-28 16:02:10 · 348 阅读 · 0 评论 -
case-服务超时排查
一、问题描述线上的一个服务A连续出现rpc调用服务B超时报错。仔细看了一下报警发现超时的rpc服务B都是在集中在一台服务器h上,并且都是一个接口访问失败。初步排除网络抖动原因和受诉宿主机影响,因为异常还在出现,根据该接口平常qps情况应该是该接口所有请求都超时了。二、原因分析1. 查看系统各项监控指标:CPU:最上边的线就是该服务器,可以看出cpu使用率很高远超出其他机...原创 2018-10-18 16:14:55 · 551 阅读 · 0 评论