- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 MapPartition一次oom问题解决
1、问题:每次跑到MapParititon就会停住 看起来是repartition的问题,实际出问题的是之前的mapPartition executor表现: 出问题的代码:val process_data = data.mapPartitions( rs => { val delLabelMapbc = delLabelMap.value
2017-09-13 12:52:20 3263
原创 groupByKey一直OOM处理
1、一个任务很简单,就是把2T数据读入,按\t拆分,取里面四个字段,之后groupByKey,但是遇到了一直groupByKey就一直fullGC的问题。这里第一个stage很快就跑完了,应该是在拉数据,map之类的。但是只产出19G数据,groupByKey直接处理应该还是绰绰有余的,但现实是我试了一个周末加一天加两个小时,一直FullGC。这个原因不明,对于整个过程内存到底怎么使用还不完全清楚。
2017-09-13 11:35:16 954 1
原创 用GC日志看spark程序是不是在driver,Executor内存效率不高
1、设置conf的方式有三种: set by SparkConf: conf.set(“spark.driver.maxResultSize”, “3g”) set by spark-defaults.conf: spark.driver.maxResultSize 3g set when calling spark-submit: –conf spark.driver.maxResultSi
2017-09-12 15:09:04 3731
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人