Hive 的 distribute by

最新推荐文章于 2023-12-01 09:00:00 发布

「已注销」

最新推荐文章于 2023-12-01 09:00:00 发布

阅读量963

点赞数

分类专栏： Hive

Hive 专栏收录该内容

34 篇文章 0 订阅

订阅专栏

Order by 能够预期产生完全排序的结果，但是它是通过只用一个reduce来做到这点的。所以对于大规模的数据集它的效率非常低。在很多情况下，并不需要全局排序，此时可以换成Hive的非标准扩展sort by。Sort by为每个reducer产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。Hive的distribute by 子句可以做这件事。

[sql]view plaincopyprint? 
   
 // 根据年份和气温对气象数据进行排序，以确保所有具有相同年份的行最终都在一个reducer分区中  
   
 From record2  
 select year, temperature  
 distribute by year  
 sort by year asc, temperature desc;