spark运维
angel泪
这个作者很懒,什么都没留下…
展开
-
spark运维监控:查看历史作业的webUI
1、停止集群 2、配置spark-env.sh export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=50 -Dspark.history.fs.logDirectory=hdfs://centos-5:9001/spark-event" 3、重启集群 4、...原创 2018-11-29 19:10:43 · 1678 阅读 · 0 评论 -
spark作业监控:standalone模式下查看历史作业
1.关闭现有的master和worker进程 2.修改spark-defaults.conf文件,配置三个属性 spark.eventLog.enabled true spark.eventLog.dir hdfs://centos-5:9001/spark-event spark.eventLog.compress true...原创 2018-11-29 19:08:44 · 850 阅读 · 0 评论 -
查看spark对应各种框架的版本情况
1.下载你使用的spark版本源码 2.打开源码里面的pom文件 3.查找你要用的框架版本 例如 我要查我现在用的spark2.2.1对应的hive版本 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <proj...原创 2018-11-27 16:18:41 · 5494 阅读 · 0 评论 -
spark性能调优-分配更多的资源
1.通过观察spark部署图可以看出增加executor的数量会增加task的数量从而增加并行度。(executor分配的task数量和cpu core有关,cpu core越多,可分配的task越多) 2.增加每个executor的内存大小,因为如果需要对RDD进行缓存,更多的内存就可以缓存更多的数据,从而减少磁盘I/O,包括shuffle操作需要内存来存放拉取的数据进行聚合,也可以减少磁...原创 2018-05-23 14:51:21 · 162 阅读 · 0 评论