mysql distribute by_Hive学习（八）排序：order by、sort by、distribute by、cluster by

最新推荐文章于 2024-07-14 09:02:56 发布

武吴为

最新推荐文章于 2024-07-14 09:02:56 发布

阅读量1.3k

点赞数

文章标签： mysql distribute by

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30609645/article/details/113253848

版权

hive中有四种排序：

1、全局排序：order by

2、内部排序：sort by

3、分区排序：distribute by

4、组合排序：cluster by

全局排序：order by

说明：全局排序是在一个MapReduce中进行排序的。

参数：

ASC：是升序的意思和mysql一样，同时也是默认的参数。

DESC：降序的意思和MySQL中一样。

举例：查询学生的信息并且按成绩高低排序

select * from student_score_info order by score

注意：以上这种操作，在实际工作中要慎用，应为使用的如果不是数据库，而是数据仓库软件例如现在的hive ,操作的是数据仓库执行的数据量是非常庞大的，如果使用了全局排序则可能资源的严重消耗

内部排序：sort by

说明：每个mapreduce的内部排序,对全局结果集来说并不是排序。

关键字：sort by

步骤：

设置reduce的个数： set mapreduce.job.reduce=3;

语句：

select * from student_score_info sort by score

注意：排序后的结果直接看不出来，得要将数据导出到本地才能看出效果

分区排序：distribute by

说明：类似MR中的partition ,进行分区的时候使用的，一般结合sort by关键字使用。

关键字：distribute by

例子：先按照部门编号分区，在按照员工编号排序。

必须要设置reduce的数量不为1 (为多个) set mapreduce.job.reduce=2

语句：

nsert overwrite local directory '/data/sort/emp2'

select * from emp distribute by deptno sort by empno desc;

注意：distribute by 语句必须写在 sort by 之前；对于distribute by 的测试的时候必须给定多个reduce 不然是没有办法分区的。

组合排序：cluster by

说明：当distribute by与sort by 字段相同的时候，可以使用cluster by 关键字。

关键字：cluster by

例子：

insert overwrite local directory '/data/sort/emp4'

select * from emp cluster by deptno;

注意：能分区也可以排序，但缺点就是只能对一个字段使用；不能指定 asc 或者desc 默认降序排序。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。