17，关于spark的一些参数优化

最新推荐文章于 2024-06-25 07:52:18 发布

北方~

最新推荐文章于 2024-06-25 07:52:18 发布

阅读量957

点赞数 1

分类专栏：大数据 spark 文章标签： spark hive hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/strawhat2416/article/details/120458284

版权

大数据同时被 2 个专栏收录

34 篇文章 4 订阅

订阅专栏

14 篇文章 3 订阅

订阅专栏

Executor执行能力

spark.executor.memory=4g
用于缓存数据、代码执行的堆内存以及JVM运行时需要的内存。

spark.executor.cores=2
单个executor上可以同时运行的task数，该参数决定了一个executor上可以并行执行几个task。

Driver执行能力

spark.driver.memory=4g
driver端的内存和driver缓存，以及返回的数据的大小有关系。
spark.driver.cores=2

读取能力

读取文件的切分规则：
spark.default.parallelism=1

spark.sql.files.maxPartitionBytes=3200000;

spark.sql.files.openCostInBytes=4194304;

spark.hadoop.mapreduce.input.fileinputformat.split.maxsize=67108864;

spark.hadoop.mapreduce.input.fileinputformat.split.minsize.per.node=67108864;

spark.hadoop.mapreduce.input.fileinputformat.split.minsize.per.rack=67108864;
具体使用请参考我之前的博客。

spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
spark.hadoop.mapreduce.input.fileinputformat.list-status.num-threads=50
spark.hadoopRDD.ignoreEmptySplits=true

矢量化reader

spark.sql.orc.enableVectorizedReader=true
spark.sql.orc.impl=native
spark.sql.hive.convertMetastoreOrc=true
spark.sql.hive.convertMetastoreParquet=true

shuffle能力

spark.sql.adaptive.enabled =true
spark.sql.adaptive.shuffle.targetPostShuffleInputSize=67108864
spark.sql.shuffle.partitions=1000;

join

spark.sql.autoBroadcastJoinThreshold = 100000000;
hint

自适应执行

需要配置extend shuffle service
spark.sql.adaptive.enabled=true
spark.dynamicAllocation.enabled=true

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
17，关于spark的一些参数优化

Executor执行能力spark.executor.memory=4g用于缓存数据、代码执行的堆内存以及JVM运行时需要的内存。spark.yarn.executor.memoryOverhead=1024Spark运行还需要一些堆外内存，直接向系统申请spark.executor.cores=2单个executor上可以同时运行的task数，该参数决定了一个executor上可以并行执行几个task。Driver执行能力spark.driver.memory=4gdriver端的内存和
复制链接

扫一扫

专栏目录

北方~ CSDN认证博客专家 CSDN认证企业博客

码龄13年

46: 原创

7万+: 周排名

185万+: 总排名

13万+: 访问

: 等级

1045: 积分

142: 粉丝

58: 获赞

26: 评论

277: 收藏

私信

关注

热门文章

分类专栏

spark 14篇
kafka 1篇
调度系统 4篇
scala 1篇
udf 1篇
隐式转换 1篇
存储引擎 1篇
olap 2篇
标签平台 1篇
flink 1篇
实时数据 2篇
迁移 1篇
kylin 1篇
storm 1篇
算法 1篇
大数据 34篇

最新评论

浅谈大数据任务调度平台
qq_16425803: 小哥你的这个框架开源不有地址不
浅谈大数据任务调度平台
SONG%: 我的疑惑点是在依赖检查，文中有提到dagscheduler和taskscheduler都有依赖检查，这两者有什么联系与区别呢
浅谈大数据任务调度平台
北方~: 静态执行计划主要是为了页面执行计划和部分DAG的展示和预先持久化(动态生成的时候如果持久化需要浪费一些时间)。其实对于timeSchedule而言，到点执行的时候就会根据规则计算下一次的执行计划，并且丢到timeScheduler.（当然还有一种特殊情况，每次执行完后按照时间推迟调度。）
浅谈大数据任务调度平台
SONG%: 对于执行计划不知道我理解的是不是正确的。对于静态执行计划（提前一天生成）的调度，是不是只要将执行计划中的任务添加到timescheduler到点执行，在taskscheduler检查上游依赖实例是否生成，满足就执行。对于动态执行计划才需要dagscheduler辅助检查上游依赖并生成子节点下一次执行计划。
浅谈大数据任务调度平台
北方~: 其实为什么要这样做的。涉及到一个设计上的原则，其实任务实例一般是确定的。不可变的。上游依赖任务全部完成，我这边才叫任务实例，否则叫执行计划。这样设计的原因是为了临时更改任务的元数据以及依赖的时候，执行计划可以做到动态更新，但是任务实例是不更新的。

大家在看

Unity横板动作游戏 - 设置瓷砖地图(Tilemap)和叠层

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。