Hive调优:
1、内存大小调整
2、增加并发
3、分区 分区设置不合理,分区过多
4、数据倾斜 任务集中在某个reduce -- 开启在map端聚合(1000条记录以下/小于20M)
5、join优化
6、合理控制map和reduce个数 小文件合并 -- 减少map个数,使用distribute by -- 增加map个数,
设置reduce个数/大小,同时使用group by -- 增加reduce个数
7、小文件问题 输出端控制reduce个数,输入map端提前合并小文件
set mapreduce.output.fileoutputformat.compress=false;
set mapreduce.task.io.sort.mb=1024;
set mapreduce.input.fileinputformat.split.maxsize=134220228;

本文主要探讨了Hive的性能调优策略,包括内存大小调整、并发增加、分区优化、解决数据倾斜、join操作优化、合理控制map和reduce数量、以及小文件问题的处理。通过调整如mapreduce.task.io.sort.mb、hive.map.aggr.hash.percentmemory等关键参数,可以显著提升Hive查询效率和系统性能。
最低0.47元/天 解锁文章
2874

被折叠的 条评论
为什么被折叠?



