从形式来说,可以简单认为,分区就是分目录,分桶就是分文件。
从实际来说,海量数据,比如日志,往往按日存储,按日做离线分析,那么按日分区很自然。分桶可以避免两表jion时,全表做笛卡尔积操作。比如a、b两表,按id分桶,相同id的数据会放入索引相同的桶内,这样join时,只把两个桶内的数据做笛卡尔积就可以了。
给自己看。
hive分区分桶土话总结
最新推荐文章于 2022-03-28 09:33:20 发布
从形式来说,可以简单认为,分区就是分目录,分桶就是分文件。
从实际来说,海量数据,比如日志,往往按日存储,按日做离线分析,那么按日分区很自然。分桶可以避免两表jion时,全表做笛卡尔积操作。比如a、b两表,按id分桶,相同id的数据会放入索引相同的桶内,这样join时,只把两个桶内的数据做笛卡尔积就可以了。
给自己看。