hive表类型---桶表、分区表

最新推荐文章于 2024-05-28 10:49:43 发布

一只土肥圆的猿

最新推荐文章于 2024-05-28 10:49:43 发布

阅读量1k

点赞数

分类专栏： Hive 文章标签： Hive 分区表桶表

本文链接：https://blog.csdn.net/cp_panda_5/article/details/78624998

版权

Hive 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

Hive表类型 ----

桶表、

	桶表是对数据进行哈希取值，然后放到不同文件中存储。
创建表
	create table t_bucket(id string) clustered by(id) into 3 buckets;		
加载数据
	set hive.enforce.bucketing = true;
	insert into table t_bucket select id from test;	
	insert overwrite table t_bucket select id from test;

   数据加载到桶表时，会对字段取hash值，然后与桶的数量取模。把数据放到对应的文件中。
注意：
	物理上，每个桶就是表(或分区）目录里的一个文件
	一个作业产生的桶(输出文件)和reduce任务个数相同

分区表、

	分区可以理解为分类，通过分类把不同类型的数据放到不同的目录下。
	分类的标准就是分区字段，可以一个，也可以多个。
	分区表的意义在于优化查询。查询时尽量利用分区字段。如果不使用分区字段，就会全部扫描。
	    创建：
		    create table t6_partition(
			    id int,
			    name string,
			    birthday date,
			    online boolean
		    ) partitioned by(dt date comment "partition field day time");
				
	        查看分区：
		    show partitions t6_partition;
	        增加分区：
		    alter table t6_partition add partition(dt="2017-07-20");
	        删除分区：
		    alter table t6_partition drop partition(dt="2017-07-20");	
	如果有多个统计维度的时候，可以采用多个分区来设置		
	      create table t6_partition_1(
		      id int,
		      name string,
		      birthday date,
		      online boolean
	       ) partitioned by(year int, class string);

一只土肥圆的猿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive表类型---桶表、分区表

Hive表类型 ----桶表、桶表是对数据进行哈希取值，然后放到不同文件中存储。创建表 create table t_bucket(id string) clustered by(id) into 3 buckets; 加载数据 set hive.enforce.bucketing = true; insert into table t_bucket select
复制链接

扫一扫

专栏目录