hive常用参数、数据倾斜处理办法总结

槑の少年

已于 2022-04-22 17:33:07 修改

阅读量1.2k

点赞数

文章标签： hive big data 大数据

于 2021-09-28 17:55:31 首次发布

本文链接：https://blog.csdn.net/A_modester/article/details/120534035

版权

本文总结了Hive的常用参数设置，包括小文件合并、动态分区、执行引擎选择和执行队列配置，还探讨了map join和其它优化措施，旨在解决大数据处理中的性能问题和数据倾斜挑战。参考了多位专家的实际案例和经验分享。

摘要由CSDN通过智能技术生成

小文件合并

--set hive.merge.sparkfiles = true;--spark引擎，结束后，新启动一个任务进行合并文件
set hive.merge.tezfiles = true;--tez引擎，结束后，新启动一个任务进行合并文件
--set hive.merge.mapredfiles = true;--在Map-Reduce的任务结束时合并小文件，mr引擎，结束后合并文件，新启动一个任务
set hive.merge.mapfiles = true;--在Map-only的任务结束时合并小文件
set hive.merge.size.per.task = 256000000;--合并后文件的大小
set hive.merge.smallfiles.avgsize=16000000;--当输出文件的平均大小小于该值时，启动一个独立的map-reduce任务进行文件merge