Hive的优化

最新推荐文章于 2024-08-16 12:21:18 发布

呵呵的简单

最新推荐文章于 2024-08-16 12:21:18 发布

阅读量178

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huo386680070/article/details/107906832

版权

1.MapJoin

set hive.auto.convert.join=true;

hive.mapjoin.smalltable.filesize默认值是25mb

如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join，即：在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join，避免reducer处理。

2.采用分桶技术

分桶是对数据垂直切分，字段是实字段，适合易于垂直切分的，比如班级

3.采用分区技术

分区是对数据水平切分，字段是个虚字段，适合的场景是完全水平切分的，比如国家，省市。

4.合理设置Map数

（1）通常情况下，作业会通过input的目录产生一个或者多个map任务。

主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小。

（2）不是map数越多越好。

如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当做一个块，用一个map任务来完成，而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的map数是受限的。

（3）是不是保证每个map处理接近128m的文件块就可以。

不是。比如有一个127m的文件，正常会用一个map去完成，但这个文件只有一个或者两个小字段，却有几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定也比较耗时。

针对上面的问题2和3，我们需要采取两种方式来解决：即减少map数和增加map数；

5.小文件进行合并

在Map执行前合并小文件，减少Map数：CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式），

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat。

jvm重用。

6.合理设置Reduce数

reduce个数问题

（1）过多的启动和初始化Reduce也会消耗时间和资源；

（2）另外，有多少个Reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；

在设置Reduce个数的时候也需要考虑这两个原则：处理大数据量利用合适的Reduce数；使单个Reduce任务处理数据量大小要合适；

7.输出合并小文件

SET hive.merge.mapfiles = true; -- 默认true，在map-only任务结束时合并小文件

SET hive.merge.mapredfiles = true; -- 默认false，在map-reduce任务结束时合并小文件

SET hive.merge.size.per.task = 268435456; -- 默认256M

SET hive.merge.smallfiles.avgsize = 16777216; -- 当输出文件的平均大小小于该值时，启动一个独立的map-reduce任务进行文件merge

8.hive sql优化

（1）join优化

set hive.optimize.skewjoin=true;

set hive.skewjoinkey=100000; --这个是join键对应的条数超过这个值则会进行优化（多一个job）

（2）groupby优化

hive.groupby.skewindata=true; --goupby过程出现倾斜，设为true

set hive.groupby.mapaggr,checkinterval=100000; --groupby 键记录条数超过100000则进行优化（多一个job）

（3）count distinct优化

select count(1) from (selecy distinct id from a) temp;

select count(1) from (select id from a group by id) tmp;

（4）针对多个count，优化（union all）

（5）行列过滤

列处理：在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT *。

行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤。所以要将过滤写在里面。

（6）压缩数据

中间压缩，处理hive查询的多个job之间的数据:

set hive.exec.compress.intermediate=true;

set hive.intermediate.compression.code=org.apache.hadoop.io.compress.SnappyCodec;

set hive.intermediate.compression.type=BLOCK;

hive最终的输出压缩:

set hive.exec.compress.output=true;

set mapred.output.compression.code=org.apache.hadoop.io.compress.GzipCodec;

set mapred.output.compression.type=BLOCK;

呵呵的简单

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。