hive:分区表和分桶表以及二者区别

本文详细介绍了Hive中的分区表和分桶表。分区表通过partitioned by创建,数据按分区字段组织在不同目录下,可通过增加/删除分区灵活管理。分桶表使用clustered by创建,数据按特定字段哈希分桶存储,有利于提高查询效率。两者在HDFS目录结构、创建语法和数据加载方式上存在显著区别。
摘要由CSDN通过智能技术生成

一.分区表(partitioned by)

1.创建分区表

--创建分区表
create table dept_part
(deptno int,dname string,loc string)
partitioned by (month string)
row format delimited fields terminated by '\t'
location '/mydb_in_hdfs.db/dept_part';

attention:分区字段不能使表中已经存在的数据,可以将分区字段看作表的伪列
在这里插入图片描述

由于还未插入数据,所以现在dept_part这个文件夹还是空的。

2.插入数据

插入数据:

load data local inpath '/opt/module/datas/dept.txt' 
into table dept_part
partition(month='202008');

在这里插入图片描述
month就是代表分区的伪列。
hdfs中,dept_part文件夹下,现在就多了一个month=202008的文件夹:
在这里插入图片描述
month=202008这个文件夹里面,放的就是dept.txt这个文件
在这里插入图片描述
继续加入不同分区:

load data local inpath '/opt/module/datas/dept.txt' 
into table dept_part
partition(month='202010');

在这里插入图片描述再次加入一个分区之后,dept_part文件夹中就又多了一个month=202010的文件夹
在这里插入图片描述
likewise,month=202010的文件夹中放置的是dept.txt
在这里插入图片描述

3.查询分区表中的数据

select * from dept_part
where month=202008;

在这里插入图片描述

4.增加/删除分区

增加分区:

alter table dept_part
add partition(month='202009') 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值