Spark on Yarn 最佳运行参数调优-计算方式

最新推荐文章于 2022-05-17 13:48:55 发布

码上中年

最新推荐文章于 2022-05-17 13:48:55 发布

阅读量1.3k

点赞数 1

分类专栏：大数据组件学习文章标签： Spark on Yarn 参数调优

本文链接：https://blog.csdn.net/q18729096963/article/details/103167698

版权

大数据组件学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

Spark on Yarn 参数调优-计算方式

1. 整理机器信息

机器数： 3台
	# 查看物理CPU个数
		cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l
		或grep 'physical id' /proc/cpuinfo | sort -u | wc -l
	每台机器核数：8核
	
	# 查看每个物理CPU中core的个数(即核数)
		cat /proc/cpuinfo| grep "cpu cores"| uniq
		或者grep 'core id' /proc/cpuinfo | sort -u | wc -l
	每台机器都是单核处理器
	
	# 查看逻辑CPU的个数
		cat /proc/cpuinfo| grep "processor"| wc -l
		或者grep 'processor' /proc/cpuinfo | sort -u | wc -l
	每台机器核数：8核
	
	# 查看CPU信息（型号）
		cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c
	查看结果：8  Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz
	
	# 内存自由状态信息
	master : 22  当做20
	worker1: 26  当做25
	worker2: 26  当做25

Top命令 查看内存信息

在这里插入图片描述

Free -h命令 查看内存信息（人性化显示）
cdh-master

在这里插入图片描述

cdh-worker1

在这里插入图片描述

cdh-worker2

在这里插入图片描述

计算参考因素

2.1 Yarn ApplicationMaster（AM）：

AM负责从ResourceManager申请资源，与NodeManager进行通信启动/停     
止任务，监控资源的使用。在Yarn上执行Spark也要考虑AM所需资源（1G
和 1个Executor）。

2.2 HDFS Throughput：

HDFS Client有多个并发线程写的问题，HDFS每个Executor的使用5个任
务就可获取完全并发写。因此最好每个Executor的cores不高于5.

2.3 MemoryOverhead：spark.yarm.executor.memoryOverhead
下面图片展示 spark-yarn-memory-usage
在这里插入图片描述

每个executor需要内存=
spark-executor-memory+spark.yarm.executor.memoryOverhead 
spark.yarm.executor.memoryOverhead=Max（384m，7%*spark.executor.memory）
即大 于等于384M 
如果我们为每个executor申请20GB资源，实际上AM获取的资源20GB+7%*20GB=～
23GB。

总结：该集群现有内存核数使用状态

核数：单台机器 8核  * 3 = 24 核数  core
内存：三台机器总可用内存 70g

计算：

4.1 最优化计算

每个executors设 5 cores，即 —executor-cores = 5（以达到 HFDS throughput有更好
的并发效果）
每个节点为Yarn daemons保留一个core，即每个节点可用cores为8-1=7个。
所以，集群当中可用的cores总数为 7*3=21核 当做20 core处理 
Executors = 20/5 = 4 
预留一个executor给AM, 则剩下3个executor —num-executors=3
每个节点的executor数= 3 / 3 = 1
每个节点的每个executor分配的内存= 20 / 1= 20GB 
去除heap overhead=7%*20GB=2GB  所以，—executor-memory=20-2=18G 给16g

4.2 综合调整Yarn配置支持spark配置
在这里插入图片描述

码上中年

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Spark on Yarn 最佳运行参数调优-计算方式

Spark on Yarn 参数调优-计算方式1. 整理机器信息机器数： 3台 # 查看物理CPU个数 cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l 或grep 'physical id' /proc/cpuinfo | sort -u | wc -l 每台机器核数：8核 # 查看每个物理CPU中core的个...
复制链接

扫一扫