IT故障排查思路和方法交流

哈工大-凌梦

已于 2022-11-18 21:26:08 修改

阅读量2.2k

点赞数 2

文章标签：数据库 java 服务器

于 2022-08-11 10:07:36 首次发布

本文链接：https://blog.csdn.net/lingmeng447/article/details/126279561

版权

1.故障处理原则

首要原则：

生产环境优先恢复业务（比如重启服务、修改负载均衡指向、恢复原有程序包等）；保留现场以备查找故障原因

a.遇到问题不要慌；理清思路；

b.首先要自行排查，不要遇到问题就甩到研发。

c.没有查出原因不要轻易下结论。

d.自己无法解决；及时上升问题到二线或领导。

2.故障等级和SLA

故障等级	影响范围	要求解决时间
轻微故障	影响较小，不影响使用	24小时
一般故障	影响一般，影响客户感知	4小时
重大故障	影响重大，严重影响客户使用	2小时

根据如上故障等级，需要大家及时响应和解决问题，自己无法解决时，及时寻求二线支持，同时上报给领导。

3.故障处理思路

a.理清网络拓扑图和数据流向

b.分析问题产生的可能原因

c.从可能原因一个一个排查

d.根据排查结果；给出解决办法

4.故障处理方法

可以从如下几个方面对故障产生的原因进行分析；然后逐项排查。

4.1从操作角度进行分析

近期是否进行过变更操作

案例：

某项目各服务一直稳定运行，6月3日进行了某个程序升级操作；6月5日发现服务器内存占满，ssh无法登录。

排查思路：

a.重启服务器之后查看系统日志；发现系统出现oom告警，报错无法分配更多的内存

b.查看Prometheus监控发现，某程序在升级完之后占用内存一直在增多；最终导致oom

c.联系研发修改该程序相关代码之后重新升级，问题解决。

4.2 从数据流向进行分析

通常部署在云平台上的系统，网络相对比较复杂，服务之间调用关系比较多，出现故障以后难以定位；因此需要从数据流向的角度去逐一排查相关问题。

案例：

某项目大屏点击视频播放窗口，视频出现卡顿现象；由于该项目涉及到的云平台和网络区域较多；服务之间调用也很复杂；

排查思路：

首先梳理点击视频播放的数据流向，明确各服务之间调用关系
检查各服务之前网络带宽、时延、抓包分析
检查中间件参数配置
检查服务端服务状态是否异常

问题：如何梳理网络拓扑或者服务数据流向？

项目验收前梳理出相关资料
项目验收后还没有输出资料的，可以在需要的时候拉着研发，通过查看相关文档，查看配置文件梳理。

4.3 从原理角度进行分析

原理是处理问题的核心所在，熟练掌握中间件的工作原理，在处理故障的时候才能得心应手。

案例：

某项目服务器断电重启；导致k8s集群无法正常启动;kubectl get node 发现两个node节点not ready。

node节点ready的前提是条件docker、kubelet、网络插件都正常；检查kubelet日志发现提示如下两个报错：

failed to get docker version: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?

Failed to run kubelet" err="failed to run Kubelet: running with swap on is not supported, please disable swap! or set --fail-swap-on flag to false. /proc/swaps contained: [Filename\t\t\t\tType\t\tSize\tUsed\tPriority /dev/zram0

根据以上两个报错，启动docker和禁用swap；同时记得把这两项加入开机启动。