hive学习笔记之四:分区表,kafka原理面试题

本文介绍了在Hadoop环境下,如何使用静态分区和多字段分区创建和管理表,以及动态分区的使用方法。通过实例展示了如何在Hive中进行数据导入和查询,并讨论了静态分区的局限性和动态分区的优势。
摘要由CSDN通过智能技术生成

[hadoop@node0 bin]$ ./hadoop fs -ls /user/hive/warehouse/t9/city=guangzhou

Found 1 items

-rwxr-xr-x 3 hadoop supergroup 16 2020-10-31 16:47 /user/hive/warehouse/t9/city=guangzhou/009.txt

[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t9/city=guangzhou/009.txt

tom,11

jerry,12

[hadoop@node0 bin]$

以上就是以单个字段做静态分区的实践,接下来尝试多字段分区;

静态分区(多字段分区)

  1. 新建名为t10的表,有两个分区字段:province和city,建表语句:

create table t10 (name string, age int)

partitioned by (province string, city string)

row format delimited

fields terminated by ‘,’;

  1. 上述建表语句中,分区字段province写在了city前面,这就意味着第一级子目录是province值,每个province子目录,再按照city值建立二级子目录,图示如下:

在这里插入图片描述

  1. 第一次导入,province=‘shanxi’, city=‘xian’:

load data

local inpath ‘/home/hadoop/temp/202010/25/009.txt’

into table t10

partition(province=‘shanxi’, city=‘xian’);

  1. 第二次导入,province=‘shanxi’, city=‘xian’:

load data

local inpath ‘/home/hadoop/temp/202010/25/009.txt’

into table t10

partition(province=‘shanxi’, city=‘hanzhong’);

  1. 第三次导入,province=‘guangdong’, city=‘guangzhou’:

load data

local inpath ‘/home/hadoop/temp/202010/25/009.txt’

into table t10

partition(province=‘guangdong’, city=‘guangzhou’);

  1. 第四次导入,province=‘guangdong’, city=‘shenzhen’:

load data

local inpath ‘/home/hadoop/temp/202010/25/009.txt’

into table t10

partition(province=‘guangdong’, city=‘shenzhen’);

  1. 全部数据如下:

hive> select * from t10;

OK

t10.name t10.age t10.province t10.city

tom 11 guangdong guangzhou

jerry 12 guangdong guangzhou

tom 11 guangdong shenzhen

jerry 12 guangdong shenzhen

tom 11 shanxi hanzhong

jerry 12 shanxi hanzhong

tom 11 shanxi xian

jerry 12 shanxi xian

Time taken: 0.129 seconds, Fetched: 8 row(s)

  1. 查看hdfs文件夹,如下图,一级目录是province字段的值:

在这里插入图片描述

  1. 打开一个一级目录,如下图,可见二级目录是city的值:

在这里插入图片描述

  1. 查看数据:

[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t10/province=shanxi/city=hanzhong/009.txt

tom,11

jerry,12

  1. 以上就是静态分区的基本操作,可见静态分区有个不便之处:新增数据的时候要针对每一个分区单独使用load命令去操作,这时候使用动态分区来解决这个麻烦;

动态分区

  1. 动态分区的特点就是不用指定分区目录,由hive自己选择;

  2. 执行以下命令开启动态分区功能:

set hive.exec.dynamic.partition=true

  1. 名为hive.exec.dynamic.partition.mode的属性,默认值是strict,意思是不允许分区列全部是动态的,这里改为nostrict以取消此禁制,允许全部分区都是动态分区:

set hive.exec.dynamic.partition.mode=nostrict;

  1. 建一个外部表,名为t11,只有四个字段:

create external table t11 (name string, age int, province string, city string)

row format delimited

fields terminated by ‘,’

location ‘/data/external_t11’;

  1. 创建名为011.txt的文件,内容如下:

tom,11,guangdong,guangzhou

jerry,12,guangdong,shenzhen

tony,13,shanxi,xian

john,14,shanxi,hanzhong

小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数初中级Java工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新Java开发全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img
img

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注Java)
img

技术学习总结

学习技术一定要制定一个明确的学习路线,这样才能高效的学习,不必要做无效功,既浪费时间又得不到什么效率,大家不妨按照我这份路线来学习。

最后面试分享

大家不妨直接在牛客和力扣上多刷题,同时,我也拿了一些面试题跟大家分享,也是从一些大佬那里获得的,大家不妨多刷刷题,为金九银十冲一波!

家不妨按照我这份路线来学习。

[外链图片转存中…(img-yhG9O1ri-1710400422965)]

[外链图片转存中…(img-EJcUyupw-1710400422965)]

[外链图片转存中…(img-ZLJlJvK3-1710400422966)]

最后面试分享

大家不妨直接在牛客和力扣上多刷题,同时,我也拿了一些面试题跟大家分享,也是从一些大佬那里获得的,大家不妨多刷刷题,为金九银十冲一波!

[外链图片转存中…(img-IvpKV79l-1710400422966)]

[外链图片转存中…(img-4F80sc3Z-1710400422966)]

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值