hadoop基础学习十（hive的分区和分桶，加载数据）

最新推荐文章于 2024-05-21 17:23:43 发布

一只小呆呆

最新推荐文章于 2024-05-21 17:23:43 发布

阅读量1.4k

点赞数

分类专栏： Hadoop 文章标签： mysql hive hadoop 大数据

本文链接：https://blog.csdn.net/qq_45798550/article/details/109111629

版权

Hadoop 专栏收录该内容

21 篇文章 3 订阅

订阅专栏

文章目录

一、分区
二、分桶
- 1）创建分区分桶表
- 2）只创建分桶表也是可以的
三、加载数据
- 1）加载本地数据
- 2）加载hdfs上数据，数据会被移动到当前表的目录下

一、分区

分区裁剪语句：select * from emp_p_2 where dt >=“2020-10-14” and dt <= “2020-10-16”;
就是将一个大表划分为多个子表，避免全表扫描提高查询效率
主要表现为在hdfs的表目录下多了一个子目录，子目录的名称即为分区的名称，将要查询的数据放入分区目录下面。可以设置多级分区，数据需放在最里层的目录下。
分区表只能创建的时候指定分区表，如果建表不是分区表不能更改
场景：事实表用分区表。按天或者按地区进行分区。一般不要超过三级。
分区字段当做普通字段用，没有索引。

1）创建分区表

CREATE TABLE `emp_p_1`(
      `id` string, 
      `name` string, 
      `job` string, 
      `mgr` string, 
      `hiredate` date, 
      `sal` double, 
      `comm` double, 
      `deptid` string)partitioned by (`dt` string)
     ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

partitioned by (dt string)：表示分区的字段为dt,可以通过查看表的结构，观察分区
在这里插入图片描述

2）向分区表中插入数据

将数据放入表目录下
在这里插入图片描述

查询

可以看到并没有查询到数据，分区表里的数据必须要指明所在的分区，将表中创建一个分区
alter table emp_p_1 add partition(dt=“2020-1-1”);

会发现hdfs上多了一个分区目录，我们将数据放入到该目录下，查询即可
注意：不能手动在表目录下创建一个目录，自己在hdfs上创建目录，MySQL中并没有该目录的信息，因此必须通过在hive中指定
在这里插入图片描述

也可以将其他表的查询结果插入到该表中，但是注意要指定分区，有分区会插入到该分区下，没有会创建
insert into table emp_p_1 partition(dt=“2020-1-2”) select * from emp_rc;

查询分区表下所有数据
在这里插入图片描述

3）创建多级分区

CREATE TABLE `emp_p_2`(
      `id` string, 
      `name` string, 
      `job` string, 
      `mgr` string, 
      `hiredate` date, 
      `sal` double, 
      `comm` double, 
      `deptid` string)partitioned by (`dt` string,`province` string)
     ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

在这里插入图片描述

1.向多级分区表中插入数据

alter table emp_p_2 add partition(dt=“2020”,province=“33”);

注意：分区的字段只能给字母或者数字，不能给汉字，因为hive和MySQL的编码集是不一样的
在这里插入图片描述

将数据上传至该目录下
在这里插入图片描述
注意：将其他表中的数据插入到分区表时，也需要指定分区目录

insert into emp_b_p partition(dt=“2020-10-16”,province=“33”) select * from emp_0;

2.查询分区表，当分区多的时候也可以通过where筛选出所需分区的内容

在这里插入图片描述

3.删除分区表

和普通表的删除方法一样
在这里插入图片描述

二、分桶

分桶：将表中记录按分桶键的哈希值分散进多个文件中，这些小文件称为桶，相同key值的文件存在一个桶中
分桶的作用是方便抽样，提高join的查询效率
分桶的字段是原始数据中存在的，分区的字段在原始数据中并不存在
一般分桶，分多少？一般可以跟分桶字段预估分区数来判断。

1）创建分区分桶表

CREATE TABLE `emp_b_p1`(
 `id` string, 
 `name` string, 
 `job` string, 
 `mgr` string, 
 `hiredate` date, 
 `sal` double, 
 `comm` double, 
 `deptid` string)
 partitioned by (`dt` string)
 clustered by (job) into 10 buckets
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

在这里插入图片描述

设置分桶为true,启动

set hive.enforce.bucketing = true;

将普通表的数据插入到分桶表，注意列数匹配问题
在这里插入图片描述

会发现出现10个reduce，这是因为之前设置了10个桶，相同key的必在一个桶中，有的桶中可能没数据，有的桶中也可能有多个key值得数据
在这里插入图片描述

2）只创建分桶表也是可以的

CREATE TABLE `emp_b_p2`(
 `id` string, 
 `name` string, 
 `job` string, 
 `mgr` string, 
 `hiredate` date, 
 `sal` double, 
 `comm` double, 
 `deptid` string)
 clustered by (job) into 10 buckets
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

在这里插入图片描述