0. 背景
Jenkins是基于Java开发的一款持续集成工具,旨在提供一个开放易用的软件平台,使软件项目可以进行持续集成。同时,Jenkins 提供了数量庞大的各种插 件,以满足用户对于持续集成相关的需求。
比如 Jenkins 提供的influxdb 插件,可以将构建执行步骤、耗时、结果等数据,发送到 influxdb 数据库,便于后期对构建数据进行分析和展示。
Jenkins在公司内部,被广泛用于各类项目的持续集成工作,支撑3000+项目、每日近万次构建。Jenkins是CI/CD的核心链路和重要环节,保障 Jenkins 的 高可用和高性能尤为重要。
1. 问题现象
我们的Jenkins 服务在运行一段时间后,会变得异常卡顿,严重降低持续集成速度,影响研发工作效率。
出了问题后,我们第一时间查看了Jenkins 监控大盘,从监控大盘可以看到,JVM 线程数量飙升得很厉害,最高达 20K:
2. 问题分析
2.1 dump 线程栈
发现问题后,登上Jenkins机器,dump下jvm的线程栈。
# 获取 Java 进程 idjps -l19768 /home/maintain/jenkins-bin/jenkins/jenkins.wa
r# dump 线程栈jstack 19768 > jstack.txt
2.2 分析线程栈
拿到这个dump后的线程栈,我们借助 https://fastthread.io/ 这个网站,分析下jvm线程栈。
大致的结果如下:
- Total Threads count: 20215
- Thread Group:RxNewThreadScheduler 18600 threads
从以上信息可以知道,jvm总共有20215个线程,其中有18600 个都是RxNewThreadScheduler这个线程组创建的线程。
2.3 定位线程来源
JVM的线程栈中,出现了大量的 RxNewThreadScheduler 这个线程组,从字面上来看,猜测应该是RxJava相关的线程。
为了验证这个猜测,我们决定查阅下 RxJava 框架的源码,看看 RxNewThreadScheduler 这个线程到底是不是从RxJava 框架生成的。
在GitHub上rxjava 的源码中搜索了下RxNewThreadScheduler,如下:
- 结果: