Hive面试总结

最新推荐文章于 2022-12-02 17:31:57 发布

流风雨情

最新推荐文章于 2022-12-02 17:31:57 发布

阅读量141

点赞数

分类专栏：数据仓库&Hive

本文链接：https://blog.csdn.net/qq_29232943/article/details/103537091

版权

数据仓库&Hive 专栏收录该内容

33 篇文章 4 订阅

订阅专栏

order by，sort by，distribute by，cluster by的区别

一：order by

order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。

set hive.mapred.mode默认为nonstrict，在strict模式下使用order by必须执行limit，否则报错

二：sort by

sort by不是全局排序，其在数据进入reducer前完成排序，因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，（mapred.reduce.tasks=1效果和orderby 是一样的）则sort by只会保证每个reducer的输出有序，并不保证全局有序。

sort by不同于order by，它不受hive.mapred.mode属性的影响，sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定)，对输出的数据再执行归并排序，即可得到全部结果。

三：distribute by

distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。通常和sort by搭配使用，sort by为每个reduce产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。

因此，distribute by经常和sort by配合使用。比如对同一年份中的温度进行排序：distribute by year sort by temperature，distribute by保证了同一reducer中接受到的是同一年份的数据，而sort by是对reducer排序

注：Distribute by和sort by的使用场景

1.Map输出的文件大小不均。

2.Reduce输出文件大小不均。

3.小文件过多。

4.文件超大。

四：cluster by

当distribute by和sorts by的字段相同时，可以使用cluster by方式，cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序（ASC）排序，不能指定排序规则为ASC或者DESC。

Hive 工作原理？

1）用户提交查询等任务给Driver

2）编译器获得该用户的任务Plan

3）编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。

4.）编译器Compiler得到元数据信息，对任务进行编译，先将HiveQL转换为抽象语法树，然后将抽象语法树转换成查询块，将查询块转化为逻辑的查询计划，重写逻辑查询计划，将逻辑计划转化为物理的计划（MapReduce）, 最后选择最佳的策略。

5）将最终的计划提交给Driver。

6） Driver将计划Plan转交给ExecutionEngine去执行，获取元数据信息，提交给NodeManager执行该任务，任务会直接读取HDFS中文件进行相应的操作。

7）获取执行的结果。

8）取得并返回执行结果。

参考

流风雨情

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive面试总结

order by，sort by，distribute by，cluster by的区别一：order byorder by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。set hive.mapred.mode默认为nonstrict，在strict模式下使用order by必...
复制链接

扫一扫