-
dolphinscheduler分布式部署,有3个worker节点,3个master节点
-
操作:分别停止215、216、217运行的工作流实例
如图:点击停止按钮
3. 现象:215、216机器上的任务一直运行中,217机器上的任务kill状态
如图
4. 问题定位:打印3台机器的worker进程dump信息,发现215、216机器上,处理停止任务的线程发生了 一直 waiting 状态,找到
5. 解决方案:去掉processUtils.killYarnJob逻辑(hive、spark客户端执行,只需kill 本地进程,yarn任务会自动取消)