预发环境服务发生oom,乍一看才600多MB就oom?what?why?
吓得马上查看了下堆大小发现才给的512MB,真是扣,这个要扩一下。
查看dump分析发现是服务接入cat引起的,接了有一段时间了现在才oom,虽然内存配小了,但是还是要确定下加大内存会不会还有oom风险。
开始分析是TcpSocketSender中的DefaultMessageQueue占用了大量的内存。
在代码中查找:com.dianping.cat.message.io.TcpSocketSender。
该类实现了Task,Task继承了Runnable就一定有run方法。
TcpSocketSender类中DefaultMessageQueue是个BlockingQueue的包装类,初始化时队列大小给的5000,也跟dump中对得上,限制了队列大小起码不会一直增长吃内存。下面要找下什么原因导致队列满了。
查看哪里做了入队、出队操作导致队列占用内存,优先看下run方法,该方法中会从m_queue取出一个元素通过m_channelManager拿到一个channel,m_channelManager是一个netty EventLoopGroup,channel不会空会将队列中的元素发送出去,为空则会重新放回去,哦呵,灵光一闪。
占时排查channel为空导致队列无法及时消除,后续查看发现是cat服务挂了导致channel获取为null,然后就一直循环。
解决方式:cat做高可用,服务进行集群部署。