groupByKey一直OOM处理

1、一个任务很简单,就是把2T数据读入,按\t拆分,取里面四个字段,之后groupByKey,但是遇到了一直groupByKey就一直fullGC的问题。这里第一个stage很快就跑完了,应该是在拉数据,map之类的。但是只产出19G数据,groupByKey直接处理应该还是绰绰有余的,但现实是我试了一个周末加一天加两个小时,一直FullGC。这个原因不明,对于整个过程内存到底怎么使用还不完全清楚。

这里写图片描述

log一直出现的问题:
这里写图片描述
用小数据很快就完了,所以是性能的问题:
这里写图片描述
2、但确定光groupByKey19G数据还是可以的,所以分两阶段,先把map完数据存在盘上。然后再读这个中间数据,之后再groupByKey,顺利跑完。
这里写图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值