hive中的order by、sort by、distribute by、cluster by排序

hive中的排序

  • 说明:hive中有四种全局排序:order by、内部排序:sort by、分区排序:distribute by、组合排序:cluster by。

order by(全局排序)

  • 说明:全局排序是在一个MapReduce中进行排序的。

  • 参数:

    • ASC:是升序的意思和mysql一样,同时也是默认的参数。

    • DESC:降序的意思和MySQL中一样。

  • 举例:查询学生的信息并且按成绩高低排序

select * from student_score_info order by score
  • 注意:以上这种操作,在实际工作中要慎用,应为使用的如果不是数据库,而是数据仓库软件例如现在的hive ,操作的是数据仓库执行的数据量是非常庞大的,如果使用了全局排序则可能资源的严重消耗。

sort by(内部排序)

  • 说明:每个mapreduce的内部排序,对全局结果集来说并不是排序。

  • 关键字:sort by

  • 步骤:

    • 设置reduce的个数:
    set mapreduce.job.reduce=3;
    
    • 语句:
    select * from student_score_info sort by score
    
  • 注意:排序后的结果直接看不出来,得要将数据导出到本地才能看出效果

distribute by(分区排序)

  • 说明:类似MR中的partition ,进行分区的时候使用的,一般结合sort by关键字使用。

  • 关键字:distribute by

  • 例子:先按照部门编号分区,在按照员工编号排序。

    • 必须要设置reduce的数量不为1 (为多个)
    set mapreduce.job.reduce=2
    
    • 语句:
    nsert overwrite local directory '/data/sort/emp2'
    select * from emp distribute by deptno sort by empno desc;
    
  • 注意:distribute by 语句必须写在 sort by 之前;对于distribute by 的测试的时候必须给定多个reduce 不然是没有办法分区的。

cluster by

  • 说明:当distribute by与sort by 字段相同的时候,可以使用cluster by 关键字。

  • 关键字:cluster by

  • 例子:

insert overwrite local directory '/data/sort/emp4'
select * from emp cluster by deptno;
  • 注意:能分区也可以排序,但缺点就是只能对一个字段使用;不能指定 asc 或者desc 默认降序排序。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值