hive 优化

最新推荐文章于 2024-09-03 15:20:03 发布

歆歆歆歆歆

最新推荐文章于 2024-09-03 15:20:03 发布

阅读量311

点赞数

分类专栏： hive 金融数据集市文章标签： hive hadoop hdfs

本文链接：https://blog.csdn.net/liupinyang/article/details/118900666

版权

4 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

hive 优化（干货）

hive优化一般分为底层优化和sql优化

hive 默认引擎为 MR ，涉及优化一般也为MR的优化，一般分为以下部分。

数据倾斜 set hive.groupby.skewindata=true;
小文件合并

是否合并Map输出文件：hive.merge.mapfiles=true（默认）
是否合并Reduce 端输出文件：hive.merge.mapredfiles=false（默认）
合并文件的大小：hive.merge.size.per.task=25610001000（默认 256000000）
合理reducer数量（注易导致oom溢出慎用）
分组聚合

hive.map.aggr=true（用于设定是否在 map 端进行聚合，默认值为真） hive.groupby.mapaggr.checkinterval=100000（用于设定 map 端进行聚合操作的条目数）

前提：数据量大
回滚：对于回滚的语句在句首添加特殊标识如 <!表示回滚符，即第一次运行时不会应用直接跳过（可用–替换<!),避免直接使用overwrite。
分区：合理依据存储策略设置分区表，及清理策略。
判空函数：避免大量判空函数如 nvl, coalesce, 在数据量小和逻辑简单的sql 中还好，数据量一旦到达某程度，严重影响执行效率。
开窗函数：主要涉及排序开窗函数，如rank()over() , row_number() 等函数，这部分函数非必须情况下应避免使用，因为这些函数对内存的需求较大。
杜绝全表扫描：严格杜绝无意义的子查询且全表查询类的子查询。如

select a.id , b.name from  ( select * from tmp ) a left join ( select * from tmp2 where name ='z3') b ；

对于以上情况应该用哪个字段取哪个字段（对于所有情况适用）。

避免笛卡尔积如

select a.id , b.name from tmp1 a , tmp2 b where a.id = b.id;

应该写为

select a.id , b.name from tmp1 a join tmp2  on a.id = b.id ;

关注

专栏目录