tez & spark 常用参数调优

最新推荐文章于 2024-05-11 03:28:57 发布

我是A_lin呀

最新推荐文章于 2024-05-11 03:28:57 发布

阅读量1.5k

点赞数

分类专栏：大数据文章标签： sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42496757/article/details/118769116

版权

大数据专栏收录该内容

1 篇文章 1 订阅

订阅专栏

1、tez

-- 小文件相关

set hive.merge.mapfiles=true;

set hive.merge.tezfiles=true;

set hive.merge.mapredfiles=true;

-- 控制小文件合并后文件大小

set hive.merge.size.per.task=268435456;

set hive.merge.smallfiles.avgsize=134217728;

-- hive控制map数量（tez应该不生效了）

set mapred.max.split.size=536870912;

set mapred.min.split.size.per.node=536870912;

set mapred.min.split.size.per.rack=536870912;

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

-- 单个reduce处理的数据量控制reduce数量

set hive.exec.reducers.bytes.per.reducer=536870912;

-- 动态预估调整reduce的个数

set hive.tez.auto.reducer.parallelism=true;

-- tez控制map数量

set tez.grouping.min-size=536870912;

set tez.grouping.max-size=2147483648;

-- tez container内存大小

set hive.tez.container.size=2048;

-- Hive内存Map Join参数设置，默认值：100，不能超过可用内存，建议值：40%*hive.tez.container.size，一般不超过2G；

set tez.runtime.io.sort.mb=100;

2、spark

-- hive 动态分区

set hive.exec.dynamic.partition=true;

-- 非严格模式

set hive.exec.dynamic.partition.mode=nonstrict;

-- NodeManager中一个长期运行的辅助服务，用于提升Shuffle计算性能。

set spark.shuffle.service.enabled=true;

-- 开启动态资源配置

set spark.dynamicAllocation.enabled=true;

-- 动态分配最小executor个数

set spark.dynamicAllocation.minExecutors=30;

-- 动态分配最大executor个数

set spark.dynamicAllocation.maxExecutors=300;

-- executor核数

set spark.executor.cores=2;

-- executor内存大小

set spark.executor.memory=3g;

-- 控制输入文件块的大小，影响并行度

set spark.hadoop.mapreduce.input.fileinputformat.split.minsize=33554432;

set spark.hadoop.mapreduce.input.fileinputformat.split.maxsize=67108864;

-- shuffle并行度

set spark.sql.shuffle.partitions=600;

-- 开启 spark 的自适应执行

set spark.sql.adaptive.enabled=true;

-- 开启 spark 的自适应执行后，该参数控制shuffle 阶段的平均输入数据大小，防止产生过多的task。

set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;

-- 开启推测执行

set spark.speculation=true;

-- 任务延迟的比例，比如当70%的task都完成，那么取他们运行时间的中位数跟还未执行完的任务作对比。如果超过1.2倍，则开启推测执行。

set spark.speculation.quantile=0.7

set spark.speculation.multiplier=1.2;

spark小文件解决思路：

利用动态分区配合distribute by语句，解决spark小文件问题。需要预估分区文件数据大小。

如果数据量不是很大单分区就合并成一个文件，比如，用distribute by p_dt,p_hr 然后动态分区就不用额外单独开小文件合并的任务了。

如果单分区文件太大可以类似这种方式控制文件数量 distribute by hash(uid)%10。

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
tez & spark 常用参数调优

1、tez -- 小文件相关 sethive.merge.mapfiles=true; sethive.merge.tezfiles=true; sethive.merge.mapredfiles=true; -- 控制小文件合并后文件大小 sethive.merge.size.per.task=268435456; sethive.merge.smallfiles.avgsize=134217728; -- hive控制map数量...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。