hive中groupby优化_面试必备技能HiveSQL优化

最新推荐文章于 2023-02-16 13:34:40 发布

VIP文章苗华栋

最新推荐文章于 2023-02-16 13:34:40 发布

阅读量162

点赞数

文章标签： hive中groupby优化

本文链接：https://blog.csdn.net/weixin_30989967/article/details/112226205

版权

Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能，而且，面试一定会问。那么，我希望面试者能答出其中的80%优化点，在这个问题上才算过关。

Hive执行
- HQL --> Job --> Map/Reduce
- 执行计划
  - explain [extended] hql
  - 样例
  - select col,count(1) from test2 group by col;
  - explain select col,count(1) from test2 group by col;
Hive表优化
- 分区
  - set hive.exec.dynamic.partition=true;
  - set hive.exec.dynamic.partition.mode=nonstrict;
  - 静态分区
  - 动态分区
- 分桶
  - set hive.enforce.bucketing=true;
  - set hive.enforce.sorting=true;
- 数据
  - 相同数据尽量聚集在一起
Hive Job优化
- 并行化执行
  - 每个查询被hive转化成多个阶段，有些阶段关联性不大，则可以并行化执行，减少执行时间
  - set hive.exec.parallel= true;
  - set hive.exec.parallel.thread.numbe=8;
- 本地化执行
  - job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
  - job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认

关注