接到报警,发现已经不能从redis读取数据,后台日志发现线程池占满,然后进行处理,现网重启,重启脚本dump出相关的现场日志。
分析:
1、查看free的输出信息,发现正常
2、查看gc的输出和heap的输出,也很正常
3、查看netstat的tcp连接,发现连接一个服务地址A连接特别多,怀疑这个上面有问题
4、查看jstack的输出,发现服务地址A上请求的线程都处于RUNNABLE状态,总数和线程池总线程一样,进一步分析,发现阻塞在接收数据响应上。至此真相大白,集成第三的服务的时候,默认超时时间设置过长,在并发量大的情况下+后然服务提供长时间未响应,导致连接被占用
等待的位置为:java.net.SocketInputStream.socketRead0(Native Method)
解决方法:操作时间设置的短点,提供保护,最终的解决方案还是服务方提供更快的处理能力。