关于Hive中的collect_list实现全局有序
简单说Hive
- Hadoop的logo是一只大象,从Hive的logo看,它是一个具有大象头,蜜蜂身体的这么一个玩意,旨在给这只庞大的大象瘦身。所以它以一种HiveQL的方式取代了传统通过MR去离线计算HDFS上面的那些文件,为开发者省去了很多复杂代码的开发,其学习成本也更低
- Hive提供了一些现成的函数,让开发者可以调用。整体上分三类:UDF、UDAF、UDTF,今天我们探讨的collect_list()以及collect_set()就是UDAF的一种,它可以实现的事情可以概括为:列转行
再来说collect_list()
collect_list()能干啥
-
数据准备
user_id follow_user_id 1 101 1 102 1 103 1 104 2 104 2