Hive知识点（五） --内/外/分区表

最新推荐文章于 2024-04-22 09:30:00 发布

小维_

最新推荐文章于 2024-04-22 09:30:00 发布

阅读量405

点赞数

分类专栏： Hive

本文链接：https://blog.csdn.net/qq_38633279/article/details/107514283

版权

Hive 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

内部表和外部表

1.内外部表区别
2.分区表
- 2.1 一级分区表
- 2.2 二级分区表
3.手动在HDFS中创建分区目录的修复
2.产看分区表

1.内外部表区别

Hive里面有两种数据:1.data（表数据）：存储在HDFS
2.metadata(元数据)：存储在MySQL

内部表（managed）：hive.metastore.warehouse.dir=/use/hive/warehouse    #内部表的创建，默认路径
                   当删除表====》同时删除data+medadata
 外部表（external）：create external table 表名 location ‘filepath’;    #创建表，可以指定任意路径
 					当删除表====》仅仅删除metadata(MySQL)，其中对于表数据（HDFS）上面的数据还是存在的，即HDFS中的路径和文件都存在，只是MySQL中的元数据被删除
 					这种在生产工作当中用的比较多 

表数据：存储在HDFS      #内部表会删除，但是外部表上在HDFS中的数据不会被删除
元数据：存储在MySQL     #内外表都是删除掉

2.分区表

Hive中的分区其实就是HDFS中的一个目录，相当于把一个大的数据集根据业务需求分割成更小的数据集，在查询的时候使用where子句的表达式选择查询所需要指定的分区，这个查询efficienty will improve

2.1 一级分区表

1.创建分区表
create table 表名（字段 字段类型,...）partition by (字段 字段类型) row format delimited fields terminated by '\t';

2.加载数据（将本地数据加载到Hive分区表）
load data loca inpath 'filepath' into table 表名 partiton(字段='value');

3.分区查询
select * from 表名 where 分区字段=‘value’;

如1:
create  table emp_partiton(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)partitioned by(mounth string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
如2：
load data local input '/home/hadoop/tmp/emp.tex' into table emp_partiton partiton（mouth='20200722'）;
如3：
select * from emp_partiton where mouth='20200722';

2.2 二级分区表

1.创建表
create table 表名(字段 字段类型,...)partitoned by(字段1 字段类型,字段2 字段类型) row format delimited fields terminated by '\t';

2.加载数据
load data local inpath 'filepath' into table 表名 partition(字段1='value',字段2='value');

3.分区查询
select * from  表名 where 分区字段1='value' and 分区字段2='value';

如1：
create  table emp2_partiton(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)partitioned by(mouth string,day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

如2：
load data local inpath '/home/hadoop/tmp/emp.txt' into table emp2_partiton partition(mouth='202008',day='22');

如3：
select * from emp2_partiton where mouth='202008' and day='22';

3.手动在HDFS中创建分区目录的修复

Hive命令行窗口其实也是可以执行操作系统命令

1.手动创建分区目录(HDFS)
dfs -mkdir -p /user/hive/warehouse/表名/分区字段;
2.查找元数据（MySQL）
mysql -uroot -p
use hive;
show tables;
select * from PARTITIONS;

----------------------------------
如1：
dfs -mkdir -p /user/hive/warehouse/emp_partiton/mounth=202006;

如2：
mysql -uroot -p
use hive;
show tables;
select * from PARTITIONS;    #发现分区没有20206

1.问题：

手动创建的HDFS分区目录，在元数据中不能被识别，需要使用Hive命令进行修复

2.Solve：

修复1：
msck repair table emp_partiton;

修复2：
alter table emp_partiton add partition(mounth='202006');

-------------------------
如：
dfs -mkdir -p /user/hive/warehouse/emp_partiton/mounth=202006;
dfs -put /home/hadoop/tmp/emp.txt /user/hive/warehouse/emp_partiton/mounth=202006;
alter table emp_partiton add partition(mounth='202006');或者msck repair table emp_partiton;

备注：企业中常用的是第二种修复方法

2.产看分区表

select * from 表名 where 分区字段=value；   #通过分区字段进行查询
show partitions 表名：   #查看表的分区都有哪些

小维_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录