linux远程卡住,记一次服务器僵死故障(ssh远程输入密码没有反应)

故障现象:

1、服务器负载、网络IO、磁盘IO等都没有问题,很正常。

2、/var/log/secure日志无报错。

3、/var/log/maillog日志,10点48的时候提示连接不上redis服务,500条左右这样的报错。Aug 23 10:48:46 kkmail dovecot: auth-worker(1813): Error: redis: connect(127.0.0.1, 10035) failed: Connection refused

Aug 23 10:48:46 kkmail dovecot: auth-worker(1813): Error: dict(zheng@test.com,10.0.45.214): Failed to lookup key shared/passdb/10.0.45.214/pop3/zheng@test.com

Aug 23 10:48:46 kkmail dovecot: auth-worker(1818): Error: redis: connect(127.0.0.1, 10035) failed: Connection refused

Aug 23 10:48:46 kkmail dovecot: auth-worker(1818): Error: dict(jd@test.com,10.0.55.234): Failed to lookup key shared/passdb/10.0.55.234/pop3/jd@test.com

Aug 23 10:48:46 kkmail dovecot: auth-worker(1813): Error: redis: connect(127.0.0.1, 10035) failed: Connection refused

Aug 23 10:48:46 kkmail dovecot: auth-worker(1813): Error: dict(zhao@test.com,10.0.154.104): Failed to lookup key shared/passdb/10.0.154.104/pop3/zhao@test.com

Aug 23 10:48:46 kkmail dovecot: auth-worker(1813): Error: redis: connect(127.0.0.1, 10035) failed: Connection refused

Aug 23 10:48:46 kkmail dovecot: auth-worker(1813): Error: dict(jun.chen@test.com,10.0.33.115): Failed to lookup key shared/passdb/10.0.33.115/imap/jun.chen@test.com

Aug 23 10:48:46 kkmail dovecot: auth-worker(1813): Error: redis: connect(127.0.0.1, 10035) failed: Connection refused

Aug 23 10:48:46 kkmail dovecot: auth-worker(1813): Error: dict(fhui.li@test.com,172.24.1.66): Failed to lookup key shared/passdb/172.24.1.66/imap/fhui.li@test.com

Aug 23 10:48:46 kkmail dovecot: auth-worker(1813): Error: redis: connect(127.0.0.1, 10035) failed: Connection refused

4、紧接着就一直报这个错误,并且造成服务器僵死,ssh远程不过去:Aug 23 10:56:11 kkmail dovecot: anvil: Error: net_accept() failed: Too many open files

Aug 23 10:56:11 kkmail dovecot: config: Error: net_accept() failed: Too many open files

5、netstat查看IMAP和POP3很多closed_wait状态(有时间研究下什么情况下可能会出现)

解决步骤:

1、怀疑linux句柄数满的时候,使用如下命令查询句柄数说被哪个进程占了。lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more (第一列是数量,第二列是进程ID)

lsof  -n|awk  '{print $2}' |sort|uniq -c|sort -nr | sed '$d' |awk '{sum += $1} END {print sum}' (统计所有之和,监控最好监控下这个)

备注:这点我没注意看。

2、更改最大打开文件数。

(1)要使 limits.conf 文件配置生效,必须要确保 pam_limits.so 文件被加入到启动文件中。查看 /etc/pam.d/login 文件中有:session required /lib64/security/pam_limits.so

(2)Linux更改最大连接数.

解决办法:解除 Linux 系统的最大进程数和最大文件打开数限制:vi /etc/security/limits.conf

*                soft    nproc          655350

*                hard    nproc          655350

*                soft    nofile         655350

*                hard    nofile         655350

3、重启服务器,要不有些占用的不会释放。重启完成后ulimit -n验证。

4、vi /etc/rsyslog.conf发现maillog日志被定向到另外一台服务器了,取消了。

5、服务器可以远程进去,邮件收发正常,不慢了。

总结:

1、可能是redis崩溃引起的Error: net_accept() failed: Too many open files故障,也有可能是Error: net_accept() failed: Too many open files故障引起的redis崩溃。

2、其实不知道具体怎么引起的,大神知道的麻烦留言给我下,谢谢。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在 Linux 中,进程可能是僵尸进程或僵死进程。 僵尸进程是一种已经结束运行但还没有被父进程回收的进程。当父进程没有调用 wait 或 waitpid 函数来回收子进程的结束状态时,子进程就会成为僵尸进程。僵尸进程在系统中仍占用一些资源,但是它的代码已经不会再被执行。 僵死进程是一种无法再终止的进程。当一个进程的父进程已经终止,而这个进程没有被重新分配给其他的父进程时,它就成为了僵死进程。僵死进程不会占用系统资源,但是它仍然占用着进程表中的一个项目。 ### 回答2: 在Linux中,进程既可以是僵尸进程(zombie process)也可以是僵死进程(dead process)。 僵尸进程是指一个子进程已经结束运行,但是父进程还没有处理该子进程的终止状态信息。这种状态下的子进程会被内核保留,并在进程表中录一段时间。僵尸进程不占用系统的资源,但是会占用一个进程ID(PID),因此如果有大量僵尸进程存在,可能会导致系统PID耗尽。处理僵尸进程的常见方法是父进程调用wait或waitpid函数来处理子进程的状态,释放其资源,并将其从进程表中删除。 僵死进程是指一个进程已经终止运行并且无法正常释放资源。这可能是因为进程在结束时未正确释放资源的问题,或者由于系统故障导致进程被异常终止。僵死进程会一直占用系统的资源,包括内存和文件描述符等。要解决僵死进程,可以通过重启系统来清除它们,或者通过手动终止占用资源的进程来释放资源。 因此,Linux中既存在僵尸进程又存在僵死进程。僵尸进程是指子进程结束但父进程未处理的进程状态信息,而僵死进程是指已经结束但无法正常释放资源的进程。处理僵尸进程需要父进程主动回收子进程,而对于僵死进程通常需要进行系统重启或手动终止进程来解决。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值