hivesql的几种优化的方法

桔梗的犬夜叉

已于 2023-02-13 08:51:18 修改

阅读量2.7k

点赞数

分类专栏： Hive 文章标签： hive

于 2022-04-05 11:07:09 首次发布

本文链接：https://blog.csdn.net/LL9504/article/details/123966102

版权

目前项目中由于数据量巨大，导致一个sql要跑一个多小时，所以找了些可以优化的点，记录下来，以后方便使用。

1.map的优化，job在map task的过程时间较长

set mapreduce.map.memory.mb=8240;
set mapreduce.reduce.memory.mb=8240;
set hive.merge.mapfiles=false;
set mapreduce.input.fileinputformat.split.maxsize=50000000;
set hive.exec.max.created.files=300000;

2.当把一个非分区表的数据，插入到一个分区表中的配置



set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set hive.merge.mapfiles = true;
set hive.merge.mapredfiles = true;
set mapreduce.map.memory.mb=4096;
set mapreduce.reduce.memory.mb=4096;
set mapred.reduce.slowstart.completed.maps=1;
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=100000;
set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.created.files=3000

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

桔梗的犬夜叉

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hivesql的几种优化的方法

目前项目中由于数据量巨大，导致一个sql要跑一个多小时，所以找了些可以优化的点，记录下来，以后方便使用。1.map的优化，job在map task的过程时间较长set mapreduce.map.memory.mb=8240;set mapreduce.reduce.memory.mb=8240;set hive.merge.mapfiles=false;set mapreduce.input.fileinputformat.split.maxsize=50000000;set hive.e
复制链接

扫一扫