记一次Tomcat线程数占满而导致的运维事故

记一次Tomcat线程数占满而导致的运维事故

故障表现

Tomcat访问报500错误,无法对外提供服务。多个Tomcat服务异常。

排查过程

查看系统资源,内存有小量上涨,CPU、带宽等负载显著下降,TCP连接数处于ESTABLISHED状态的数据没有显明变化,但非ESTABLISHED状态的数量大量减少。
第一时间先上重启服务大法。重启后能短暂提供服务,但是马上又回到卡死状态。
使用jstack看到有很多进程卡在网络访问。同时有应用日志报某个服务地址访问失败。
想起之前为了优化小概率报无法解析域名的错误,而把域名IP写到hosts文件中。

问题原因

因某个第三方服务器域名对应的IP地址变化,导致hosts中写的IP地址错误,响应超时时间过长,导致Tomcat的线程被大量占用,无法接受新请求。进一步导致其它Tomcat因为该Tomcat的问题无法响应而同样线程占满,无法响应新请求,造成服务器雪崩问题。所以多次重启均无效,后修改为正确IP地址后恢复正常。

解决方案

1.增加脚本高频(1分钟1次或可更慢)的定时来判断IP是否有变化并刷新hosts文件;
2.修改tomcat使得有更大的线程数;
3.缩短请求第三方的超时时间,按具体情况10秒左右;
4.把这部分可能阻塞的请求,若不影响业务,改用消息队列异步处理,减少线程占用;
5.增加熔断机制,异常时避免雪崩。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值