1.spark的性能调优问题:
问题1:num-executors,execuor-cores和executor-memory的分配
driver.memory :driver运行内存,默认值512m,一般2-6G
num-executors :集群中启动的executor总数
executor.memory :每个executor分配的内存数,默认值512m,一般4-8G
executor.cores :每个executor分配的核心数目
yarn.am.memory :AppMaster内存,默认值512m
yarn.am.memoryOverhead :am堆外内存,值为 AM memory * 0.07, 最小384
yarn.driver.memoryOverhead :driver堆外内存,driverMemory *0.07 最小384
yarn.executor.memoryOverhead :executor堆外内存,值为 executorMemory * 0.07, 最小384
每个executor从Yarn请求的内存 = executor.memory + yarn.executor.memoryOverhead
问题2:yarn资源管理设置:
yarn.app.mapreduce.am.resource.mb :AM能够申请的最大内存,默认值为1G,一般1-2G
yarn.nodemanager.resource.memory-mb :nodemanager能够申请的最大内存,默认值为8G
yarn.scheduler.maximum-allocation-mb :调度时一个container能够申请的最大资源,默认值为8G
打个比方有3台 16核 64GB:
我们选择core数为4 --executor-cores = 3
为每个节点留出1个核心用于Hadoop / Yarn守护进程, 即每个节点可用的核心数 = 16-1 = 15。 因此,群集中核心的可用总数= 15 x 3 = 45
–num-executors