- 博客(3)
- 收藏
- 关注
原创 spark调优第二篇:spark内存溢出还可能是你的driver memory的内存内存不够
java.lang.OutOfMemoryError: GC overhead limit exceeded 在模型中我需要将100万的数据读出来经行筛选在组成一个30万维大数组,那么其中一个操作涉及到将rdd转化为array。 在这一步中其实是将所有的数据都拉到一台机器上了,也就是你的driver,应为我用的是spark-shell默认的任务执行模式 是yarn-client。
2017-10-30 22:11:49 16912 2
原创 Spark调优第一篇
最初级的早启动spark-shell时这些设置的 ./bin/spark-submit \ --master yarn-cluster \ --num-executors 100 \ --executor-memory 6G \ --executor-cores 4 \ --driver-memory 1G \ --conf spark.default.parallelism=100
2017-10-14 22:01:56 366
原创 Spark中的DataFrame的getAs方法如果取到的值是null的处理
Spark中的DataFrame的getAs方法如果取到的值是null的处理结果 我遇到的两种情况吧 val DF = hc.sql("...............") val rdd = DF.rdd.map{ row => val label = row.getAs[Int]("age") } 1,如果getAs[Integer]("age")那么null值被拿出来依然为nul
2017-10-14 20:17:08 13694 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人