hive排序：distribute by 、sort by 、cluster by 、order by 区别

最新推荐文章于 2023-08-02 11:17:22 发布

SeaSky_Steven

最新推荐文章于 2023-08-02 11:17:22 发布

阅读量377

点赞数

分类专栏： hive 文章标签： distribute by sort by

原文链接：http://www.imooc.com/article/42981?block_id=tuijian_wz

版权

hive 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1.背景

hive中有一个store表，字段分别是"商店所属人标识"(merid)，“商户余额(money)”，“商店名称（name）”。求每个法人下属的商店的余额按照降序排序。

    //merid,money,name
    B 10 store_B_4
    A 12 store_A_1
    A 14 store_A_2
    B 15 store_B_1
    B 19 store_B_2
    B 30 store_B_3

2.distribute by、sort by

hive中（distribute by + “表中字段”）关键字控制map输出结果的分发,相同字段的map输出会发到一个reduce节点去处理。sort by为每一个reducer产生一个排序文件，他俩一般情况下会结合使用。

hive> select * from store distribute by merid sort by money desc;

3.cluster by

cluster by 相当于 distribute by 和sort by 的结合，默认只能是升序，以下两种写法查询结果相同

    //cluster by
    hive>select * from store cluster by merid;
    //distribute by,sort by
    hive>select * from store distribute by merid sort by merid asc;

————————————————
版权声明：本文为CSDN博主「fantasticqiang」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/fantasticqiang/article/details/80769316

3 . 总结分析

1). order by 只有一个reduce负责对所有的数据进行排序，若大数据量，则需要较长的时间。建议在小的数据集中使用order by 进行排序。

2). order by 可以通过设置hive.mapred.mode参数控制执行方式，若选择strict，则order by 则需要指定limit（若有分区还有指定哪个分区）；若为nostrict，则与关系型数据库差不多。

3). sort by 基本上不受hive.mapred.mode影响，可以通过mapred.reduce.task 指定reduce个数，查询后的数据被分发到相关的reduce中。

4). sort by 的数据在进入reduce前就完成排序，如果要使用sort by 是行排序，并且设置map.reduce.tasks>1,则sort by 才能保证每个reducer输出有序，不能保证全局数据有序。

5). distribute by 采集hash算法，在map端将查询的结果中hash值相同的结果分发到对应的reduce文件中。

6). distribute by 可以使用length方法会根据string类型的长度划分到不同的reduce中，最终输出到不同的文件中。 length 是内建函数，也可以指定其他的函数或这使用自定义函数。

7). cluster by 除了distribute by 的功能外，还会对该字段进行排序，所以cluster by = distribute by +sort by 。
作者：QQ595454159
链接：http://www.imooc.com/article/42981?block_id=tuijian_wz
来源：慕课网
本文原创发布于慕课网，转载请注明出处，谢谢合作

SeaSky_Steven

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive排序：distribute by 、sort by 、cluster by 、order by 区别

1). order by 只有一个reduce负责对所有的数据进行排序，若大数据量，则需要较长的时间。建议在小的数据集中使用order by 进行排序。2). order by 可以通过设置hive.mapred.mode参数控制执行方式，若选择strict，则order by 则需要指定limit（若有分区还有指定哪个分区）；若为nostrict，则与关系型数据库差不多。3). sort...
复制链接

扫一扫