tez和spark常用参数调优

最新推荐文章于 2024-04-28 17:38:22 发布

生命不息丶折腾不止

最新推荐文章于 2024-04-28 17:38:22 发布

阅读量1.1k

点赞数

分类专栏： hive 文章标签： spark hive big data

本文链接：https://blog.csdn.net/leen0304/article/details/125406072

版权

本文介绍了tez和spark的参数调优，重点探讨了使用动态分区和distribute by语句解决spark小文件问题。通过预估分区文件大小，可以将小文件合并，例如使用distribute by配合动态分区。对于单分区文件过大，可以利用hash函数控制文件数量，如distribute by hash(uid)%10来创建适当数量的分区文件。

摘要由CSDN通过智能技术生成

1、tez参数


-- 小文件相关
set hive.merge.mapfiles=true;
set hive.merge.tezfiles=true;
set hive.merge.mapredfiles=true;

-- 控制小文件合并后文件大小
set hive.merge.size.per.task=268435456;
set hive.merge.smallfiles.avgsize=134217728;

-- hive控制map数量（tez应该不生效了）
set mapred.max.split.size=536870912;
set mapred.min.split.size.per.node=