Spark问题和调优

本文介绍了Spark性能调优的关键点,包括executor的数量、内存和核心的配置,以及Yarn资源管理的设定。同时,讨论了spark-submit参数、Spark SQL与Hive的兼容性问题、jar包冲突的解决、日志获取方法、小文件处理策略、Py3环境的临时使用、任务本地化限制的解除、SparkSQL表的刷新和远程提交到Yarn集群的方法。
摘要由CSDN通过智能技术生成

1.spark的性能调优问题:
问题1:num-executors,execuor-cores和executor-memory的分配

driver.memory :driver运行内存,默认值512m,一般2-6G
num-executors :集群中启动的executor总数
executor.memory :每个executor分配的内存数,默认值512m,一般4-8G
executor.cores :每个executor分配的核心数目
yarn.am.memory :AppMaster内存,默认值512m
yarn.am.memoryOverhead :am堆外内存,值为 AM memory * 0.07, 最小384
yarn.driver.memoryOverhead :driver堆外内存,driverMemory *0.07 最小384
yarn.executor.memoryOverhead :executor堆外内存,值为 executorMemory * 0.07, 最小384

每个executor从Yarn请求的内存 = executor.memory + yarn.executor.memoryOverhead
问题2:yarn资源管理设置:

yarn.app.mapreduce.am.resource.mb :AM能够申请的最大内存,默认值为1G,一般1-2G
yarn.nodemanager.resource.memory-mb :nodemanager能够申请的最大内存,默认值为8G
yarn.scheduler.maximum-allocation-mb :调度时一个container能够申请的最大资源,默认值为8G

打个比方有3台 16核 64GB:

我们选择core数为4 --executor-cores = 3
为每个节点留出1个核心用于Hadoop / Yarn守护进程, 即每个节点可用的核心数 = 16-1 = 15。 因此,群集中核心的可用总数= 15 x 3 = 45
–num-executors

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值