由于机房断电,导致应用节点6个里面,突然挂了4个节点
1、使用top查看,java线程还在
2、查看程序日志,没有任何异常
3、使用curl 访问 "127.0.0.1:port"没有响应
4、使用jstack -l pid >> dump.txt 进行分析
发现存在大量类似的信息
Locked ownable synchronizers:
- <0x000000008c727158> (a java.util.concurrent.ThreadPoolExecutor$Worker)
发现基本上全部都等待着线程 0x0000000087f053f8
------------------------------------------------------------------------------------------------
最后检查了一下代码,发现jedis工具类是抄用了网上了,代码比较难看懂,但是可以看到设置了maxWaitMill,也没有任何使用scan的地方,所以不清楚为什么会造成Pool.getResource死掉了。
----------------------------------------------------------------------------------------------------
最后经过金山云大神、芋艿、CMBC鹏程的指导下发现
因为jedis在2.4.1之后就不支持maxWait属性了,连接等待换成了maxWaitMillis,而如果采用旧的网上的写法,那么maxWaitMillis默认一直为-1,当redis服务出现网络或其他问题,就会堵死jedis Pool资源,导致程序假死,一直等待,所以如果使用了jedis,版本又大于2.4.1需要注意一下这个问题
-----------------------------------------------------------------------------------------------------
目前还没有修改线上的配置,等待下一次出现,再修改确认