hive学习笔记之四：分区表

2301_78399805

于 2024-04-23 15:00:11 发布

阅读量843

点赞数 10

分类专栏：程序员文章标签： hive 学习笔记

本文链接：https://blog.csdn.net/2301_78399805/article/details/138126411

版权

程序员专栏收录该内容

448 篇文章 0 订阅

订阅专栏

partition(city=‘shenzhen’);

再执行一次导入操作，命令如下，city的值从前面的shenzhen改为guangzhou：

load data

local inpath ‘/home/hadoop/temp/202010/25/009.txt’

into table t9

partition(city=‘guangzhou’);

查询数据，可见一共四条数据，city共有两个值：

hive> select * from t9;

t9.name t9.age t9.city

tom 11 guangzhou

jerry 12 guangzhou

tom 11 shenzhen

jerry 12 shenzhen

Time taken: 0.104 seconds, Fetched: 4 row(s)

前面曾提到分区实际上是不同的子目录，来看一下是不是如此，如下图，红框是t9的文件目录，下面有两个子目录city=guangzhou和city=shenzhen：

在这里插入图片描述

查看子目录里面文件的内容，可见每条记录只有name和age两个字段：

[hadoop@node0 bin]$ ./hadoop fs -ls /user/hive/warehouse/t9/city=guangzhou

Found 1 items

-rwxr-xr-x 3 hadoop supergroup 16 2020-10-31 16:47 /user/hive/warehouse/t9/city=guangzhou/009.txt

[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t9/city=guangzhou/009.txt

tom,11

jerry,12

[hadoop@node0 bin]$

以上就是以单个字段做静态分区的实践，接下来尝试多字段分区；

静态分区（多字段分区）

新建名为t10的表，有两个分区字段：province和city，建表语句：

create table t10 (name string, age int)

partitioned by (province string, city string)

row format delimited

fields terminated by ‘,’;

上述建表语句中，分区字段province写在了city前面，这就意味着第一级子目录是province值，每个province子目录，再按照city值建立二级子目录，图示如下：

在这里插入图片描述

第一次导入，province=‘shanxi’, city=‘xian’：

load data

local inpath ‘/home/hadoop/temp/202010/25/009.txt’

into table t10

partition(province=‘shanxi’, city=‘xian’);

第二次导入，province=‘shanxi’, city=‘xian’：

load data

local inpath ‘/home/hadoop/temp/202010/25/009.txt’

into table t10

partition(province=‘shanxi’, city=‘hanzhong’);

第三次导入，province=‘guangdong’, city=‘guangzhou’：

load data

local inpath ‘/home/hadoop/temp/202010/25/009.txt’

into table t10

partition(province=‘guangdong’, city=‘guangzhou’);

第四次导入，province=‘guangdong’, city=‘shenzhen’：

load data

local inpath ‘/home/hadoop/temp/202010/25/009.txt’

into table t10

partition(province=‘guangdong’, city=‘shenzhen’);

全部数据如下：

hive> select * from t10;

t10.name t10.age t10.province t10.city

tom 11 guangdong guangzhou

jerry 12 guangdong guangzhou

tom 11 guangdong shenzhen

jerry 12 guangdong shenzhen

tom 11 shanxi hanzhong

jerry 12 shanxi hanzhong

tom 11 shanxi xian

jerry 12 shanxi xian

Time taken: 0.129 seconds, Fetched: 8 row(s)

查看hdfs文件夹，如下图，一级目录是province字段的值：

在这里插入图片描述

打开一个一级目录，如下图，可见二级目录是city的值：

在这里插入图片描述

查看数据：

[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t10/province=shanxi/city=hanzhong/009.txt

tom,11

jerry,12

以上就是静态分区的基本操作，可见静态分区有个不便之处：新增数据的时候要针对每一个分区单独使用load命令去操作，这时候使用动态分区来解决这个麻烦；

动态分区

动态分区的特点就是不用指定分区目录，由hive自己选择；
执行以下命令开启动态分区功能：

set hive.exec.dynamic.partition=true

名为hive.exec.dynamic.partition.mode的属性，默认值是strict，意思是不允许分区列全部是动态的，这里改为nostrict以取消此禁制，允许全部分区都是动态分区：

set hive.exec.dynamic.partition.mode=nostrict;

建一个外部表，名为t11，只有四个字段：

create external table t11 (name string, age int, province string, city string)

row format delimited

fields terminated by ‘,’

location ‘/data/external_t11’;

创建名为011.txt的文件，内容如下：

tom,11,guangdong,guangzhou

jerry,12,guangdong,shenzhen

tony,13,shanxi,xian

john,14,shanxi,hanzhong

将011.txt中的四条记录载入表t11：

load data

local inpath ‘/home/hadoop/temp/202010/25/011.txt’

into table t11;

接下来要，先创建动态分区表t12，再把t11表的数据添加到t12中；
t12的建表语句如下，按照province+city分区：

create table t12 (name string, age int)

partitioned by (province string, city string)

row format delimited

fields terminated by ‘,’;

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注：Java）

这次面试我也做了一些总结，确实还有很多要学的东西。相关面试题也做了整理，可以分享给大家，了解一下面试真题，想进大厂的或者想跳槽的小伙伴不妨好好利用时间来学习。学习的脚步一定不能停止！

薪酬缩水，“裸辞”奋战25天三面美团，交叉面却被吊打，我太难了

Spring Cloud实战

薪酬缩水，“裸辞”奋战25天三面美团，交叉面却被吊打，我太难了

Spring Boot实战

薪酬缩水，“裸辞”奋战25天三面美团，交叉面却被吊打，我太难了

面试题整理（性能优化+微服务+并发编程+开源框架+分布式）
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！

[外链图片转存中…(img-87MpGXJx-1713855599708)]

Spring Cloud实战

[外链图片转存中…(img-lHwHBG5D-1713855599708)]

Spring Boot实战

[外链图片转存中…(img-jzl2GoxX-1713855599709)]

2301_78399805

关注

10
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
hive学习笔记之四：分区表

load dataOKtom,11jerry,12以上就是以单个字段做静态分区的实践，接下来尝试多字段分区；
复制链接

扫一扫

专栏目录

hive学习笔记之四：分区表

静态分区（多字段分区）

动态分区

分享

分享

“相关推荐”对你有帮助么？