56.Spark大型电商项目-用户访问session分析-性能调优之在实际项目中分配更多资源

最新推荐文章于 2022-02-20 16:17:12 发布

zerone-f

最新推荐文章于 2022-02-20 16:17:12 发布

阅读量207

点赞数

分类专栏：大数据 spark 电商用户行为分析文章标签： Spark大型电商项目

本文链接：https://blog.csdn.net/someby/article/details/88787631

版权

大数据同时被 3 个专栏收录

196 篇文章 4 订阅

订阅专栏

spark

175 篇文章 3 订阅

订阅专栏

电商用户行为分析

141 篇文章 4 订阅

订阅专栏

分配更多资源

问题

解析spark-submit

本篇文章记录用户访问session分析-性能调优之在实际项目中分配更多资源。

分配更多资源

性能调优的王道，就是增加和分配更多的资源，性能和速度上的提升，是显而易见的。基本上，在一定范围之内，增加资源与性能的提升，是成正比的。

写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，就是要来调节最优的资源配置；在这个基础之上，如果spark作业能够分配的资源达到了极限之后，无法再分配更多的资源了，那么才是考虑去做后面的这些性能调优的点。

问题

1、分配哪些资源？
2、在哪里分配这些资源？
3、为什么多分配了这些资源以后，性能会得到提升？

1、分配哪些资源？

executor、cpu per executor、memory per executor、driver memory

2、在哪里分配这些资源？在我们在生产环境中，提交spark作业时，用的spark-submit shell脚本，里面调整对应的参数

/usr/local/spark/bin/spark-submit \
--class cn.spark.sparktest.core.WordCountCluster \
--num-executors 3 \ #配置executor的数量
--driver-memory 100m \ #配置driver的内存（影响不大）
--executor-memory 100m \ #配置每个executor的内存大小
--executor-cores 3 \ # 配置每个executor的cpu core数量
/usr/local/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar \

3、调节到多大，算是最大呢？

第一种，Spark Standalone，公司集群上，搭建了一套Spark集群，你心里应该清楚每台机器还能够给你使用的，大概有多少内存，多少cpu core；那么，在设置的时候，就根据这个实际的情况，去调节每个spark作业的资源分配。比如说你的每台机器能够给使用4G内存，2个cpu core，20台机器；假设executor数量为20个，那么就可以为每一个executor平均分配4G内存，2个cpu core。

第二种，Yarn资源队列，资源调度。应该去查看，你的spark作业，要提交到的资源队列，大概有多少资源？如果有500G内存，100个cpu core；假设executor数量为50个，那么就可以为每一个executor平均分配10G内存，2个cpu core。

一个原则，你能使用的资源有多大，就尽量去调节到最大的大小（executor的数量，几十个到上百个不等；executor内存；executor cpu core）

4、为什么调节了资源以后，性能可以提升？

解析spark-submit

	spark-submit 
	--class dblab.LogCleanJobScala \
	--master spark://Master:7077 \
	--deploy-mode client \
	--driver-memory 100m \
	--executor-memory 1g \
	--total-executor-cores 2 \
	--executor-cores 1 \
	/home/hadoop/IdeaScala/TechBbs/out/artifacts/TechBbs/TechBbs.jar \
	hdfs://Master:9000/techbbsl/input \
	hdfs://Master:9000/techbbs/output 

	a）--class dblab.LogCleanJobScala：运行LogCleanJobScala；
	b）--master spark://Master:7077：指定运行的master；--master yarn：指定作业运行在yarn上；
	c）--deploy-mode client,cluster：使用yarn的Client或cluster模式运行作业；
	d）--driver-memory 100m ：为driver分配内存
	e）--executor-memory 1g ：为每个executor分配的内存
	f）--executor-cores 1 ：每个executor分配的cpu core
	g）/home/hadoop/IdeaScala/TechBbs/out/artifacts/TechBbs/TechBbs.jar ：LogCleanJobScala所在的jar的位置；
	h）hdfs://Master:9000/techbbsl/input ：数据位置
	i）hdfs://Master:9000/techbbs/output ：计算结果输出位置