Oozie任务阻塞问题

早上业务部门发邮件说昨天数据没生成出来,查看集群后发现workflow任务阻塞了,正常9点之前所有任务都能执行完毕,今天竟然有三个workflow还在执行中。。。还有两个workflow任务超时报错了,进一步排查原因是资源池被其它部门的机器学习任务抢占了!
随着生产集群上部署的workflow越来越多,集群资源有限,集群任务没有合理规划执行时间,导致现在出现资源抢占的情况!!!

在这里插入图片描述
和其它部门协调方案:
(1) 限制机器学习任务占用资源大小
(2)把机器学习任务从7点调整到5点

后续如何避免这类问题:
(1)申请加大集群资源(增加内存)
(2)重新规划资源分配(流程梳理)

-----------------sqoop任务报错----------------
sqoop从oracle抽数据到HDFS中,报错信息如下:

21/02/25 04:00:54 WARN security.UserGroupInformation: PriviledgedActionException as:asmp@XXXX.COM (auth:KERBEROS) cause:java.io.IOException: Unable to close file because the last block BP-1269833827-10.122.3.61-1524897132951:blk_1195150678_230032137 does not have enough number of replicas.
21/02/25 04:00:54 ERROR tool.ImportTool: Import failed: java.io.IOException: Unable to close file because the last block BP-1269833827-10.122.3.61-1524897132951:blk_1195150678_230032137 does not have enough number of replicas.
	at org.apache.hadoop.hdfs.DFSOutputStream.completeFile(DFSOutputStream.java:2789)
	at org.apache.hadoop.hdfs.DFSOutputStream.closeImpl(DFSOutputStream.java:2751)
	at org.apache.hadoop.hdfs.DFSOutputStream.close(DFSOutputStream.java:2710)

查找原因:报错信息显示block块没有足够的副本而不能关闭文件,说明在某一时刻有任务大量读取blocks,耗费了过多的资源。
于是查看oozie任务执行图表,每天4点钟和6点钟同时提交的workflow任务太多,需要对定时任务重新调整优化!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值