Hive分桶概念


1.Hive分桶的概念

相较于分区,分桶的粒度更小,而且与分区不同的是,分区是人为设定分区字段建立一个用于管理的“伪列”,而分桶是按照某列的属性值的Hash计算结果进行区分。
eg.按照id属性分为3个桶,就是对id属性值的hash值对3取摸,按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件。


1.建立表并进行分桶

set hive.enforce.bucketing=true;
create table t_test (id int) clustered by (id) into 3 buckets row format delimited fields terminated by '\t';

set hive.enforce.bucketing = true 可以自动控制上一轮reduce的数量从而适配bucket的个数(hummmm嘛意思?)
要使用关键字clustered by 指定分桶依据的列名,并指定分为多少桶,这里指定分为3桶。

2.插入数据

insert into t_test values (1);

reduce数量与桶数量匹配
3.查看结果
1)文件系统中的效果
这里写图片描述

有三个文件,1mod3=1 所以000001_0的大小变成了2B(清晰明了)
2)查询结果的效果
这里写图片描述
通过关键词tablesample来选定桶,000001_0是第二个桶,所以2 out of 3.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值