hive 桶相关特性分析

1. hive 桶相关概念

    桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。
    抽样( sampling 可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。

   
2. 桶作用

1)数据抽样

2)提升某些查询操作效率,如:mapside join 

3. 桶的使用
  

--场景一、场景二使用此表说明 
以id来划分桶,测试是否可以直接使用load将数据放入相关的桶中。
create table tb_user (id int ,name string,age int) partitioned by (timeflag bigint) clustered by (id) sorted by (age asc) into 4 buckets  row format delimited fields terminated by ',';

测试数据:
[hadoop@mwtec-50 tmp]$ hadoop fs -cat /user/hive/warehouse2/tb_user/timeflag=130730/tb_user;
1,nat,18,130731
0,joe,19,130730
2,kay,14,130729
3,ann,18,130730
4,add,19,130730
5,ads,20,130821
6,dsf,19,130901
7,ll,19,130721
8,aas,15,130721

--场景七
使用name来划分桶,测试是否可以使用字符串进行划分。
create table tb_stu_1(id int,age int, name string,timeflag bigint)  clustered by (name) sorted by (age) into 5  buckets row format delimited fields terminated  by ',';

--其他场景:
使用id来划分桶,测试桶的一些特性。
create table tb_tmp(id int,age int, name string ,timeflag bigint) row format delimi
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值