找到关键点
在看到12452个等待在CachedBnsClient.run的业务的一瞬间笔者就意识到,肯定是这边的线程导致对外内存泄露了。下面就是根据线程大小计算其泄露内存量是不是确实能够引起OOM了。
发现内存计算对不上
由于我们这边设置的Xss是512K,即一个线程栈大小是512K,而由于线程共享其它MM单元(线程本地内存是是现在线程栈上的),所以实际线程堆外内存占用数量也是512K。进行如下计算:
12563 * 512K = 6331M = 6.3G
整个环境一共4G,加上JVM堆内存1.8G(1792M),已经明显的超过了4G。
(6.3G + 1.8G)=8.1G > 4G
如果按照此计算,应用应用早就被OOM了。
怎么回事呢?
为了解决这个问题,笔者又思考了好久。如下所示:
Java线程底层实现
JVM的线程在linux上底层是调用NPTL(Native Posix Thread Library)来创建的,一个JVM线程就对应linux的lwp(轻量级进程,也是进程,只不过共享了mm_struct,用来实现线程),一个thread.start就相当于do_fork了一把。
其中,我们在JVM启动时候设置了-Xss=512K(即线程栈大小),这512K中然后有8K是必须使用的,这8K是由进程的内核栈和thread_info公用的,放在两块连续的物理页框上。如下图所示: