quartz集群部署 s still active but was recovered by another instance in the cluster问题源码分析解决
问题如下在集群启动的时候包如下错误
2021-03-21 14:49:22.984 WARN 12516 — [_ClusterManager] o.s.s.quartz.LocalDataSourceJobStore [3334] : This scheduler instance (scsp-1.novalocal1616163053446) is still active but was recovered by another instance in the cluster. This may cause inconsistent behavior.
配置文件如下
通过查询源代码发现当org.quartz.scheduler.instanceId=AUTO时在创建Scheduler调度器的时候回去读取配置文件中的org.quartz.scheduler.instanceId配置参数,当判断schedInstId等于AUTO的时候定义了一个参数autoId设置为了true
当代码执行到如下图位置的时候判断如果为true则调用generateInstanceId方法
进入可以看到说通过获取服务器hostname+系统时间生成了一个实例id
接着执行当调用了 scheduler.start();后进行如下逻辑
继续跟踪代码可以看到当首次进入的时候进行加锁然后clusterCheckIn这个方法
判断实例id是否在数据库中存在,如果有怎进行更新,没有添加
其实我们刚看到上面的代码还有一个逻辑会进入findFailedInstances方法
到如果第一个启动的服务添加完成以后回来然后执行到下面把锁释放以后并且把firstCheckIn修改成false后第二个线程进行这块逻辑然后进行findFailedInstances方法,可以看到下图进行了比较如果集群服务器主机名不同或者时间不一样那么foundThisScheduler就是会为false
然后执行到下面这块的时候就会这个警告another instance in the cluster
总结结合上面源码分析可知当org.quartz.scheduler.instanceId设置为AUTO时候集群中的所有服务器的时间可主机名最后要一样