服务器的一次故障解决

  今早还在路上,接到值班电话,说一台服务器报警,报警信息为根分区磁盘空间满了,我直觉就是nginx的日志占用了空间,让其上服务器确认,好容易等他登陆到服务器上,查看,结果正常了。然后看到领导在微信群里说他清理了磁盘空间。

  到了公司以后,登陆上该服务器发现空间释放了,但还是占用了80%,还是不正常,先用df命令查看磁盘情况,占用80%,后面用du去核对实际大小,发现跟df的结果对不上,差很多,然后用lsof |grep deleted发现很多nginx的进程还在调用已经删除的文件,看来领导只删了文件,但nginx的引用并未启用新的,还在用老的文件描述符,导致系统并未真正释放空间。然后为了不中断服务使用命令lsof | grep deleted|awk '{print $2}'|xargs kill杀掉了那些子进程,不过过一会儿还是有新的生成,空间还是释放不彻底。

  同时经过追踪发现,nginx的error log在疯狂的增长,进去一看,有很多的too many open files的错误,这是文件句柄用光了的意思啊,ulimit -a,open files是65535,不小了,查看了同时链接,1w+,看来这个数字已经不能满足nginx需要了,cat /proc/sys/fs/file-max,系统最大300多w,于是再次调高了/etc/security/limit.conf里面的限制,重启了nginx以后,一切恢复正常(包括文件描述符占用,不知道nginx的reload能不能释放,回头做个试验吧),error log已经没有了,其他地方的访问也已经正常,目前服务器同时连接数保持在1w零几百左右。见图:

ps:刚去试验了一下,删除nginx的日志文件以后,使用reload命令能够释放并重新生成日志文件.

2015年2月12日再次ps:

经过这几天回想发现,上面提到的空间不释放,不是领导删的问题,我跟他确认过,他只删除了以前压缩的gz日志文件,经过分析发现,我们的分发程序都是长连接,那么当每天凌晨lograted进程进行日志分割的时候,虽然向nginx发送了信号,nginx也重新reload了,但因为没有断开连接,所以日志文件的句柄并没有释放,而导致nginx继续向昨天的日志文件中写入,而那些因为异常退出的长连接,重新连接后则向新日志文件中写入,就出现了上面的现象。

转载于:https://www.cnblogs.com/skynass/p/4285485.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值