spark
hongtaq156136
这个作者很懒,什么都没留下…
展开
-
parkstreaming实时写入hive后合并小文件问题
今天主要来说一下sparksql写入hive后小文件太多,影响查询性能的问题.在另外一篇博客里面也稍微提到了一下,但还是感觉要单独说一下,首先我们要知道hive里面文件的数量=executor-cores*num-executors*job数,所以如果我们batchDuration的设置的比较小的话,每天在一个分区里面就会生成很多的小文件,我们在hive里面查询的时候就会非常的影响性能,下面介绍两...转载 2019-02-03 15:27:07 · 663 阅读 · 0 评论 -
查看spark任务日志
spark运行的任务往往通过web来查看,但是,当运行的是sparkStreaming任务时,日志往往会很大,web查看并不方便,因此需要定位到服务器上去看。下面将分别介绍两种查看driver端和executor端日志的方式。一、web端日志的查看:下面是四个yarn调度spark任务的web总界面:点击第一个任务:application_1509845442132_3866 进入下...转载 2019-02-21 15:29:25 · 2161 阅读 · 0 评论 -
如果自己的jar和spark默认的jar冲突
spark.driver.userClassPathFirst spark.driver.userClassPathFirst false (Experimental) Whether to give user-added jars precedence over Spark's own jars when loading classes in the driver. This...原创 2019-02-27 15:37:36 · 1091 阅读 · 0 评论 -
spark RDD分区2GB限制(Size exceeds Integer.MAX_VALUE)
最近使用spark处理较大的数据文件,遇到了分区2G限制的问题,spark日志会报如下的日志:WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, 10.111.32.47): java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUEa...转载 2019-03-01 17:53:31 · 1413 阅读 · 1 评论 -
Spark推测执行解决SparkStreaming任务task卡死问题
Spark推测执行解决SparkStreaming任务task卡死问题景:测试环境运行一个SparkStreaming任务,yarn-cluster模式,duration为5分钟一个批次,每个批次平均2000w条records,并行度为60资源配置为:${SPARK_HOME}/bin/spark-submit --name ${jobname} --driver-cores 3 -...转载 2019-02-20 17:53:15 · 2838 阅读 · 1 评论 -
Spark面对OOM问题的解决方法及优化总结
转载请保持完整性并注明来源链接:http://blog.csdn.net/yhb315279058/article/details/51035631Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的s...转载 2019-03-02 11:46:16 · 760 阅读 · 0 评论