昨天使用Redis实现了一个分布式锁,在对这个锁进行压测的过程中,系统出现了假死状态。
我用的是JedisCluster,当并发达到一定数目之后,redis命令就不再执行了,tomcat也无法再对外提供任何服务。后台不报任何异常,CPU占用率并不高,内存也没有爆表。种种迹象都明,可能是系统中的某些线程发生了阻塞,也许是死锁,也许是其它。
开始我以为是我写的分布式锁有问题,于是以各种单线程或低并发做测试,然而并没有发现什么问题;一次只lock一个资源,也不可能导致死锁。所以应该就是高并发导致了系统产生某种故障。
于是我想到了用jstack来查看jvm中线程的运行情况。
当系统再次发生阻塞时,首先在命令行中敲入:jps
,拿到当前tomcat的pid 12076,之后在命令行中敲入jstack -l 12076 >> E:/jstack_info1.txt
,将thread dump记录输出到一个文件中。
打开后一看,发现有大量的JedisPool
线程处于WAITING状态:
“http-nio-8092-exec-200” #241 daemon prio=5 os_prio=0 tid=0x0000000024b2d000 nid=0x6d98 waiting on condition [0x000000003821c000]
java.lang.Thread.State: WAITING (parking)
at sun.misc.Unsafe.park(Native Method)
- parking to wait for <0x0000000779897f18> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
at org.apache.commons.pool2.impl.LinkedBlockingDeque.takeFirst(LinkedBlockingDeque.java:590)
at org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:425)
at org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:346)
at redis.clients.util.Pool.getResource(Pool.java:49)
at redis.clients.jedis.JedisPool.getResource(JedisPool.java:226)
at redis.clients.jedis.JedisSlotBasedConnectionHandler.getConnectionFromSlot(JedisSlotBasedConnectionHandler.java:70)
at redis.clients.jedis.JedisClusterCommand.runWithRetries(JedisClusterCommand.java:113)
at redis.clients.jedis.JedisClusterCommand.run(JedisClusterCommand.java:30)
at redis.clients.jedis.JedisCluster.set(JedisCluster.java:123)
at slg.rainbow.lock.RedisDistributeLock.tryGetLock(RedisDistributeLock.java:27)
at slg.rainbow.seckill.service.SeckillWebService.submitOrder(SeckillWebService.java:29)
……
上网随便一搜,爆出好几篇文章来,选两个有代表意义的:
《jedisPool.getResource()方法长时间无响应并且不报错》
《jedisPool.getResource()方法长时间无响应并且不报错,方法阻塞》
基本上都是关于JedisPool中MaxWaitMillis
参数配置的。如果不对这个参数进行显示配置,那么默认MaxWaitMillis=-1
,等于-1什么意思呢?就是当JedisPool线程耗尽的时候,永远的阻塞下去……OMG !
于是我把这个参数调成了1000:
问题终于解决!