Hive知识点(五) --内/外/分区表

1.内外部表区别

Hive里面有两种数据:1.data(表数据):存储在HDFS
2.metadata(元数据):存储在MySQL

内部表(managed):hive.metastore.warehouse.dir=/use/hive/warehouse    #内部表的创建,默认路径
                   当删除表====》同时删除data+medadata
 外部表(external):create external table 表名 location ‘filepath’;    #创建表,可以指定任意路径
 					当删除表====》仅仅删除metadata(MySQL),其中对于表数据(HDFS)上面的数据还是存在的,即HDFS中的路径和文件都存在,只是MySQL中的元数据被删除
 					这种在生产工作当中用的比较多 

表数据:存储在HDFS      #内部表会删除,但是外部表上在HDFS中的数据不会被删除
元数据:存储在MySQL     #内外表都是删除掉  

2.分区表

Hive中的分区其实就是HDFS中的一个目录,相当于把一个大的数据集根据业务需求分割成更小的数据集,在查询的时候使用where子句的表达式选择查询所需要指定的分区,这个查询efficienty will improve

2.1 一级分区表

1.创建分区表
create table 表名(字段 字段类型,...)partition by (字段 字段类型) row format delimited fields terminated by '\t';

2.加载数据(将本地数据加载到Hive分区表)
load data loca inpath 'filepath' into table 表名 partiton(字段='value');

3.分区查询
select * from 表名 where 分区字段=‘value’;1:
create  table emp_partiton(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)partitioned by(mounth string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'2:
load data local input '/home/hadoop/tmp/emp.tex' into table emp_partiton partiton(mouth='20200722';3:
select * from emp_partiton where mouth='20200722';

2.2 二级分区表

1.创建表
create table 表名(字段 字段类型,...)partitoned by(字段1 字段类型,字段2 字段类型) row format delimited fields terminated by '\t';

2.加载数据
load data local inpath 'filepath' into table 表名 partition(字段1='value',字段2='value');

3.分区查询
select * from  表名 where 分区字段1='value' and 分区字段2='value';1:
create  table emp2_partiton(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)partitioned by(mouth string,day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';2:
load data local inpath '/home/hadoop/tmp/emp.txt' into table emp2_partiton partition(mouth='202008',day='22');3:
select * from emp2_partiton where mouth='202008' and day='22';

3.手动在HDFS中创建分区目录的修复

Hive命令行窗口其实也是可以执行操作系统命令

1.手动创建分区目录(HDFS)
dfs -mkdir -p /user/hive/warehouse/表名/分区字段;
2.查找元数据(MySQL)
mysql -uroot -p
use hive;
show tables;
select * from PARTITIONS;

----------------------------------1:
dfs -mkdir -p /user/hive/warehouse/emp_partiton/mounth=202006;2:
mysql -uroot -p
use hive;
show tables;
select * from PARTITIONS;    #发现分区没有20206

1.问题:

手动创建的HDFS分区目录,在元数据中不能被识别,需要使用Hive命令进行修复

2.Solve:

修复1:
msck repair table emp_partiton;

修复2:
alter table emp_partiton add partition(mounth='202006');

-------------------------
如:
dfs -mkdir -p /user/hive/warehouse/emp_partiton/mounth=202006;
dfs -put /home/hadoop/tmp/emp.txt /user/hive/warehouse/emp_partiton/mounth=202006;
alter table emp_partiton add partition(mounth='202006');或者msck repair table emp_partiton;

备注:企业中常用的是第二种修复方法

2.产看分区表

select * from 表名 where 分区字段=value;   #通过分区字段进行查询
show partitions 表名:   #查看表的分区都有哪些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值