前言
Dubbo是一个阿里开源的一款RPC框架,底层网络通信基于Netty,并且分离了业务线程池和IO线程池,本次问题就是业务线程池积压爆满导致线程池拒绝接受新的请求。
问题
由于网络抖动,请求的流量激增,各项指标出现了很高的锯齿状,同时Kibana日志里大量出现了Dubbo线程繁忙的错误。
[DUBBO] Thread pool is EXHAUSTED! Thread Name: DubboServerHandler-10.1.26.158:20880,
Pool Size: 200 (active: 200, core: 200, max: 200, largest: 200), Task: 138833487 (completed: 138833287), Executor status:(isShutdown:false, isTerminated:false, isTerminating:false),
in dubbo://10.1.26.158:20880!, dubbo version: 2.7.3, current host: 10.1.26.158
分
分析
出现这种情况有以下几种情况
服务提供者执行业务耗时长,同时有超过200个线程(Dubbo默认线程数)同时在执行,导致线程池无法分配出新的线程资源来处理新请求
FullGC的stop-the-world 时间过长,导致所有线程处于等待状态,只有GC线程处于Runnable清理垃圾
Dubbo业务线程对同一资源有访问,并且有锁,无法并发访问,导致排队从而影响性能
and soon...
排查思路
首先看了一下Grafana上服务的GC时间,发现并没有长时间的GC消耗&