最近一周都在看一个线上问题,焦头烂额,所幸最后问题得到解决。这里记录一下trouble shooting的过程。
现象
客户使用我们的一个order-export job每隔半小时定时run,把所有已付款订单发送至ERP系统,通知仓库准备发货。结果时间到了,job没有被trigger起来,尝试手工trigger也没有任何的反应。
trouble shooting
1. 检查log,发现大量的404问题,根据log查到发生该问题的job是另一个,我们自己设计的job表里已经没有该job了,但是quartz里trigger还在定时发生; 还有一些job因为系统平台刚刚从cf(cloudFoundry)升级到K8S,该异常job还是call以前的老的调用URI导致出错。这个导致的困扰是产生大量的error log,非常干扰调查。
2. 检查log关键词,定位问题是在quartz scheduler里发生,还没有call到我们自己的service业务代码,关键查询quartz里几个表的信息(quartz_trigger, quartz_fired_trigger)。 结果发现trigger一直在BLOCK state, fired trigger里一条处于“EXECUTING”状态的记录一直没有被删除,看fired time,已经过了几个小时,正常情况fired trigger应该在job执行完就被删除,然后trigger state被设置为“WAITING”状态,等待下一次执行时间点到来。检查schedule开始trigger job附近时间点的log(吐槽一下log数目,几秒时间都有几千条。。),发现了大量的DB SQL state 08001错误。比对google的一些信息