版本:quartz 2.2.3
环境:2台linux机器搭建集群
问题现象:1个10s循环执行的job,每隔10s会同时在2台机器进行调度执行。
查看源码:
triggers = qsRsrcs.getJobStore().acquireNextTriggers(
now + idleWaitTime, Math.min(availThreadCount, qsRsrcs.getMaxBatchSize()), qsRsrcs.getBatchTimeWindow());
其中idleWaitTime定义为30*1000ms,即查询30s内要被调度的状态为waiting的triggers,在查询前都会先获得trigger_access锁,修改状态为acquired。然后循环等待到nextfiretime,到时间执行firedtrigger改状态为executing,然后triggers再回到waiting状态。
在集群机器时间不一致,job执行时间很快时,时间快的机器1执行完后,状态恢复了,时间慢的机器2会再次获得trigger执行。最终支持并发执行的job会插入多条firedtrigger记录,导致执行多次。时间同步后,机器2获得trigger就会遇到锁和trigger状态不为waiting,无法fired。
解决方案:
配置服务器时间同步: ntp服务