终于到周五了,打开电脑查看集群运行情况,
某个workflow原来执行完只需要1h,现在执行时间翻倍?
应该是spark重试机制的原因,最终结果还是执行成功了
workflow 历史执行时间 4:00-5:14
workflow2 历史执行时间 5:00-5:56
根据Start Time显示workflow在4:21开始执行,5:00被workflow2卡死,
在workflow2 释放资源后,5:52又重新启动并执行成功的。
于是调整workflow2占用资源,使其不能完全占用集群大量资源!