hive hsq中的group by & Distribute by & partition by & cluster by & partitioned by & clustered by

最新推荐文章于 2024-04-14 14:48:06 发布

吃鱼的羊

最新推荐文章于 2024-04-14 14:48:06 发布

阅读量3.4k

点赞数 1

分类专栏： HIVE

原文链接：https://blog.csdn.net/qq_16320025/article/details/102976995

版权

HIVE 专栏收录该内容

84 篇文章

订阅专栏

https://blog.csdn.net/qq_16320025/article/details/102976995

https://segmentfault.com/a/1190000021887398

group by & partition by & Distribute by 首先一定要记住group by分组之后是会组内聚合的而后两者仅仅是分组了，并未有聚合操作

partition by是分区 Distribute by 可以理解为分簇

partition by是分区区内排序用order by

Distribute by 可以理解为分簇簇内排序用sort by 另外当 distribute by 和 sorts by 后的字段相同时，可以使用 cluster by 方式

partitioned by (分区名 string) 按所分区名分区建表使用
clustered by(列名) 按列分桶建表使用

——————————————————————————————----

over中partition by和distribute by区别：

1）partition by [key..] order by [key..]只能在窗口函数中使用，而distribute by [key...] sort by [key...]在窗口函数和select中都可以使用。

2）窗口函数中两者是没有区别的

3）where后面不能用partition by

order by

order by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样，它只在一个reduce中进行所以数据量特别大的时候效率非常低。

distribute by

DISTRIBUTE BY 是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。

sort by

sort by为每个reduce产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此，distribute by经常和sort by配合使用。

group by

和distribute by类似都是按key值划分数据都使用reduce操作
唯一不同的是，distribute by只是单纯的分散数据，distribute by col – 按照col列把数据分散到不同的reduce。
而group by把相同key的数据聚集到一起，后续必须是聚合操作

cluster by

distribute by 和 sort by 合用就相当于cluster by，但是cluster by 不能指定排序为asc或 desc 的规则，只能是升序排列。

Partition by

通常查询时会对整个数据库查询，而这带来了大量的开销，因此引入了partition的概念，在建表的时候通过设置partition的字段, 会根据该字段对数据分区存放，更具体的说是存放在不同的文件夹,这样通过指定设置Partition的字段条件查询时可以减少大量的开销
具体参考 hive中partition如何使用

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。