Spark问题和调优

最新推荐文章于 2023-03-13 17:44:43 发布

蜗牛般的程序员

最新推荐文章于 2023-03-13 17:44:43 发布

阅读量433

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/weixin_41347226/article/details/117562045

版权

本文介绍了Spark性能调优的关键点，包括executor的数量、内存和核心的配置，以及Yarn资源管理的设定。同时，讨论了spark-submit参数、Spark SQL与Hive的兼容性问题、jar包冲突的解决、日志获取方法、小文件处理策略、Py3环境的临时使用、任务本地化限制的解除、SparkSQL表的刷新和远程提交到Yarn集群的方法。

摘要由CSDN通过智能技术生成

1.spark的性能调优问题：
问题1：num-executors，execuor-cores和executor-memory的分配

driver.memory ：driver运行内存，默认值512m，一般2-6G
num-executors ：集群中启动的executor总数
executor.memory ：每个executor分配的内存数，默认值512m，一般4-8G
executor.cores ：每个executor分配的核心数目
yarn.am.memory ：AppMaster内存，默认值512m
yarn.am.memoryOverhead ：am堆外内存，值为 AM memory * 0.07, 最小384
yarn.driver.memoryOverhead ：driver堆外内存，driverMemory *0.07 最小384
yarn.executor.memoryOverhead ：executor堆外内存，值为 executorMemory * 0.07, 最小384

每个executor从Yarn请求的内存 = executor.memory + yarn.executor.memoryOverhead
问题2：yarn资源管理设置：

yarn.app.mapreduce.am.resource.mb ：AM能够申请的最大内存，默认值为1G，一般1-2G
yarn.nodemanager.resource.memory-mb ：nodemanager能够申请的最大内存，默认值为8G
yarn.scheduler.maximum-allocation-mb ：调度时一个container能够申请的最大资源，默认值为8G

打个比方有3台 16核 64GB：

我们选择core数为4 --executor-cores = 3
为每个节点留出1个核心用于Hadoop / Yarn守护进程, 即每个节点可用的核心数 = 16-1 = 15。因此，群集中核心的可用总数= 15 x 3 = 45
–num-executors