1. 排查思路
- 某些地方调用了 service 的 showSownxxxx系列方法
- 或者 Runnable task定义的 run 方法中有异常发生且没有被catch, 导致 task queue 为 null.
2. 排查与验证过程
验证思路
- 如何验证1.1 ?
jstack 查找对应的 Thread, 是否存在,如果存在则排除 1.1
- 如何验证1.2 ?
在 Runnable task 的 run 方法中添加 整个方法的 try...catch 块,且,catch 范围设置为 Throwable, 并设置捕捉到异常时候记录或者输出异常信息。运行任务,观察任务不在调度或者 waiting 时是否有异常抛出,如果有,则为此原因且可以按照异常信息提示进行修复。
验证过程
- 验证 1.1
- jps -lvm |grep '${xxx}' 获取 java pid
- jstack pid
- 此时提示 jstack 不能正常响应, 需要 '-F' 选项
- jstack -F pid, 此时所有的jstack 信息中没有 Thread name 等详细信息,仅仅为 Thread {number} 为开头的信息
- 核对了下 Java pid 对应进行的 owner 和当前系统登录的owner 不一致,于是切换了下当前登录的用户,重新运行 jstack pid 命令,jstack 信息正常
- 查找到目标线程,状态为 WAITING,
- 排除 1.1 的可能
- 验证 1.2
根据验证思路 1.2 中的提示进行,发现有一个jar冲突,NoSuchMethod 的异常
3. 结论
- 根据异常提示修复了异常后,任务可以正常调度了。
- 建议将 ThreadFactory 中的 uncaughtExceptionHandler 的设置,和 Thread 的 run 方法中的 try catch 处理机制分开来看, 换言之 uncaughtExceptionHandler 不一定能严格的catch 到 Thread run 方法代码块的异常.