服务器宕机排查

一、判断真假死机

1、真死机:服务器确实宕机了,机器登陆不上,ping 不通,需要让机房重启

2、假死机:由于硬件资源暂时性地被消耗殆尽,因而无法对外部指令进行响应的现象。

比如cpu 内存 带宽跑满,可观察监控,再宕机前的资源消耗情况,等待一会,看能否恢复,此时机器比较卡顿,能ping 通,尝试登陆,再能登陆的时候,可能需要kill或者重启进程。实在不行,只能让机房强制重启。

二、宕机可能原因:服务器(硬件+系统),应用程序,人为

  • 服务器硬件故障,比如内存故障,需要更换;
  • 服务器配置过低,导致即便访问量不算太高也超出了系统承载能力,需要提高配置;
  • 某些系统参数配置不合理,比如fd个数或允许连接数过低等;
  • 系统内核bug,比如软死锁等,需要升级内核;
  • 机器压力过大,超出系统承载能力,包括正常的短暂性突增,或者异常访问,比如黑客攻击等;
  • 应用程序本身存在bug,比如死循环,消耗系统资源的逻辑导致资源耗尽;
  • 多线程造成的死锁现象,互相等待对方释放资源;
  • 人为误操作导致的

三、排查思路

1、查看系统日志 /var/log/messages,分析宕机时间前后的系统日志,看看是否有明显的报错,比如oom或内核bug;

2、查看监控,在宕机前有没有指标异常,比如CPU或内存突增,可能短暂突发上量超过系统承载能力;

3、硬件故障,可以看下/var/log/dmesg,或者登录远控查看系统日志,比如内存故障等,可能需要更换;

四、如何处理

  • 首先恢复业务
  • 分析问题
  • 排查原因
  • 制定解决方案
  • 完善监控,及时发现
  • 复盘总结,避免再次发生
  • 经验积累,知识库
  • 17
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值