spark
cxy1991xm
这个作者很懒,什么都没留下…
展开
-
Spark 任务性能优化浅谈
1 spark on yarn(cluster模式)框架 图1- 11.1 yarn组件概念ResourceManager:负责集群的资源管理和分配。NodeManager:每个节点的资源和任务管...原创 2020-01-11 18:49:34 · 602 阅读 · 0 评论 -
spark core
一、checkpoint1、首先设置checkpoint路径,通过SparkContext的setCheckpointDir(dir)设置2、RDD本身调用checkpoint()方法3、checkpoint过程: (1)RDD本身调用checkpoint()方法后,RDDCheckpointData对象会对该RDD进行处理,并将该RDD的状态设置 MarkedForChe...原创 2018-08-07 22:50:34 · 100 阅读 · 0 评论 -
Spark History Server配置
1、spark-defaults.conf:spark.eventLog开头的配置spark.eventLog.enabled truespark.eventLog.compress truespark.eventLog.dir hdfs://ip:port/log/或者file:///tmp/spark-events2、spar...原创 2019-04-15 12:20:41 · 134 阅读 · 0 评论 -
spark on yarn提高提交任务速度
对于spark on yarn模式,yarn上的container需要运行spark所需的jar包。在spark-defaults.conf中指定spark.yarn.archive或者spark.yarn.jars1、spark.yarn.archive 将spark主目录下jars文件夹下的jar包打包,比如spark_lib.zip 将spark_lib.zip上传到hd...原创 2019-05-30 19:43:38 · 502 阅读 · 0 评论 -
spark参数详解
spark的配置参数可以在多个地方配置,以executor的memory为例,有三个地方可以配置(1)spark-submit的--executor-memory选项(2)spark-defaults.conf的spark.executor.memory配置(3)spark-env.sh的SPARK_EXECUTOR_MEMORY配置优先级:spark-submit --选项 > ...原创 2019-06-15 14:31:31 · 1550 阅读 · 0 评论 -
spark sql随记
1、spark sql访问hive将hive-site.xml放入到${SPARK_HOME}/conf下如果是spark on yarn的cluster模式,由于driver是运行于哪个executor未知,因此在spark-defaults.conf中指定参数spark.yarn.dist.files xxx/hive-site.xml...原创 2019-06-16 20:34:17 · 104 阅读 · 0 评论 -
spark异常错误总结
1、java.lang.OutOfMemoryError: GC overhead limit exceeded原因:数据量太大,内存不够解决方案:(1)增大spark.executor.memory的值,减小spark.executor.cores (2)减少输入数据量,将原来的数据量分几次任务完成,每次读取其中一部分2、ERROR An error occurred...原创 2019-06-21 19:38:20 · 5107 阅读 · 0 评论 -
spark HiveThriftServer2
1、HiveThriftServer2对于spark来说,就是一个任务。对客户端来说,是一个JDBC服务,和hive中hiveServer2服务类似。因此客户端可以通过JDBC连接访问HiveThriftServer2,执行sql语句。将hive-site.xml拷贝到spark配置文件目录下,修改hive-site.xml中hive.server2.thrift.port的值,即是HiveThr...原创 2019-07-25 12:06:20 · 1698 阅读 · 0 评论