自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 spark调优第二篇:spark内存溢出还可能是你的driver memory的内存内存不够

java.lang.OutOfMemoryError: GC overhead limit exceeded 在模型中我需要将100万的数据读出来经行筛选在组成一个30万维大数组,那么其中一个操作涉及到将rdd转化为array。 在这一步中其实是将所有的数据都拉到一台机器上了,也就是你的driver,应为我用的是spark-shell默认的任务执行模式 是yarn-client。

2017-10-30 22:11:49 16912 2

原创 Spark调优第一篇

最初级的早启动spark-shell时这些设置的 ./bin/spark-submit \ --master yarn-cluster \ --num-executors 100 \ --executor-memory 6G \ --executor-cores 4 \ --driver-memory 1G \ --conf spark.default.parallelism=100

2017-10-14 22:01:56 366

原创 Spark中的DataFrame的getAs方法如果取到的值是null的处理

Spark中的DataFrame的getAs方法如果取到的值是null的处理结果 我遇到的两种情况吧 val DF = hc.sql("...............") val rdd = DF.rdd.map{ row => val label = row.getAs[Int]("age") } 1,如果getAs[Integer]("age")那么null值被拿出来依然为nul

2017-10-14 20:17:08 13694 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除