Hive-分桶

分桶

单个分区或者表中的数据越来越大,分区不能细粒度的划分数据时,可以采用分桶去实现,
分桶是将数据集分解为更容易管理的若干部分的另一种技术

分桶的技术:

CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

分桶的原理:

跟MR的hashpartitioner是一样的
MR中:key的hash值模上reduce数量
hive中:按照分桶字段的hash值模上分桶的个数
hive也是针对某一列进行桶的组织,hive采用对列值进行hash,然后模上分桶的个数求余数决定记录存放在哪儿个桶中

分桶的意义

1、为了保存分桶查询的分桶结构(数据已经按照分桶字段进行了hash散列)
2、分桶表进行抽样和join操作时可以提高MR的查询效率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值