场景
某一天晚上,小明的手机突然收到一堆短信,他很是奇怪,现在的人应该基本都是玩微信,谁还玩短信这么无聊,小明随之一看,当场吓了个半死,是一堆服务器宕机的告警!
难道机房被火力攻击了吗?冷静,冷静,小明忍住心慌,打开了电脑,然后打开自己平时用来测试服务器网络的脚本,咦,网络全通,然后再远程服务器看看,发现远程正常,防火墙正常,SNMP服务正常,应用服务正常,但告警短信还是不停的发过来。
恐怖如斯!
不过小明是见过大场面的运维,他很想直接关手机,然后睡觉,但是运维的职业精神引导着他打开了监控服务器,经过一系列检查,确实无法正常监控,然后这些服务器都有一个共同点,df -h卡死
到这里,其实有些经验的人就应该发现,这些服务器都是挂载着同一个NFS服务,而这个NFS服务挂掉了!
解决方法
一、如果NFS服务器能恢复,这当然是最理想的情况了,当nfs服务器恢复之时,告警就会自动取消
二、但还是会有一些尴尬的时候,就是nf