Hadoop运维:hive作业跑挂的原因总结

最近集群数据源迁移,重新布置flume,由于没有优化好,产生了大量的小文件,多达八九万个……,外加上集群出现了namenode挂机故障,整个ETL作业跑的一塌糊涂。

现在对问题进行总结:

(1)map作业数因为小文件原因,从一个任务有几千个map激增到9w个……,每次作业运行到4w个左右的时候就挂掉了,追踪log日志,resourceManager的配置yarn.app.mapreduce.am.resource.mb设置为1GB,造成内存溢出,而导致作业被杀死。将参数修改为3GB。

(2)有些作业报出如下错误:

java.lang.OutOfMemoryError: Java heap space 
  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值