hive学习笔记之六：HiveQL基础，搞定kafka看这一篇就够了

高级编程TOP

于 2024-03-29 04:34:06 发布

阅读量793

点赞数 28

分类专栏： 2024年程序员学习文章标签： hive 学习笔记

本文链接：https://blog.csdn.net/qd520_1314/article/details/137130187

版权

2024年程序员学习专栏收录该内容

310 篇文章 0 订阅

订阅专栏

本篇概览

本文是《hive学习笔记》系列的第六篇，前面的文章咱们对数据类型、表结构有了基本了解，接下来对常用的查询语句做一次集中式的学习；
HiveQL与SQL类似, 在语法上与大部分SQL兼容, 但是并非完全兼容，例如更新、事务等都不支持，子查询和join操作也有限, 这和底层依赖Hadoop有关；

准备数据

本次实战要准备两个表：学生表和住址表，字段都很简单，如下图所示，学生表有个住址ID字段，是住址表里的记录的唯一ID：

在这里插入图片描述

先创建住址表：

create table address (addressid int, province string, city string)

row format delimited

fields terminated by ‘,’;

创建address.txt文件，内容如下：

1,guangdong,guangzhou

2,guangdong,shenzhen

3,shanxi,xian

4,shanxi,hanzhong

6,jiangshu,nanjing

加载数据到address表：

load data

local inpath ‘/home/hadoop/temp/202010/25/address.txt’

into table address;

创建学生表，其addressid字段关联了address表的addressid字段：

create table student (name string, age int, addressid int)

row format delimited

fields terminated by ‘,’;

创建student.txt文件，内容如下：

tom,11,1

jerry,12,2

mike,13,3

john,14,4

mary,15,5

加载数据到student表：

load data

local inpath ‘/home/hadoop/temp/202010/25/student.txt’

into table student;

至此，本次操作所需数据已准备完毕，如下所示：

hive> select * from address;

1 guangdong guangzhou

2 guangdong shenzhen

3 shanxi xian

4 shanxi hanzhong

6 jiangshu nanjing

Time taken: 0.043 seconds, Fetched: 5 row(s)

hive> select * from student;

tom 11 1

jerry 12 2

mike 13 3

john 14 4

mary 15 5

Time taken: 0.068 seconds, Fetched: 5 row(s)

开始体验HiveQL

select和where

最普通的带条件查询：

hive> select * from address where city like ‘%a%’;

1 guangdong guangzhou

3 shanxi xian

4 shanxi hanzhong

6 jiangshu nanjing

Time taken: 0.128 seconds, Fetched: 4 row(s)

group by

按province字段分组：

select province, count(*) from address group by province;

该查询会触发MR计算，结果如下：

…

Total MapReduce CPU Time Spent: 1 seconds 910 msec

guangdong 2

jiangshu 1

shanxi 2

Time taken: 17.847 seconds, Fetched: 3 row(s)

试试嵌套查询，内部是查出city字段带有a字母的记录，然后将这些记录按照province字段分组：

select t.province, count(*) from (

select * from address where city like ‘%a%’

) t

group by t.province;

结果如下：

Total MapReduce CPU Time Spent: 1 seconds 760 msec

guangdong 1

jiangshu 1

shanxi 2

Time taken: 18.036 seconds, Fetched: 3 row(s)

having

前面的嵌套查询，结果有两个省：guangdong和shanxi，如果再加个条件：只显示城市数量大于1的省，首先想到的是再加一层嵌套：

select t1.* from (

select t.province, count(*) as cnt from (

select * from address where city like ‘%a%’

) t

group by t.province) t1

where t1.cnt>1;

结果如下，可见只有shanxi被显示了：

Total MapReduce CPU Time Spent: 2 seconds 250 msec

shanxi 2

Time taken: 20.067 seconds, Fetched: 1 row(s)

对于上述SQL，可以用having语法进行分组筛选，得到同样数据：

select t.province, count(*) as cnt from (

select * from address where city like ‘%a%’

) t

group by t.province having cnt>1;

order by

对分组结果做排序：

select t.province, count(*) as cnt from (

select * from address where city like ‘%a%’

) t

group by t.province order by cnt;

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024b （备注Java）

最后的话

无论是哪家公司，都很重视Spring框架技术，重视基础，所以千万别小看任何知识。面试是一个双向选择的过程，不要抱着畏惧的心态去面试，不利于自己的发挥。
同时看中的应该不止薪资，还要看你是不是真的喜欢这家公司，好了希望这篇文章对大家有帮助！

部分截图：
在这里插入图片描述

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！*

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024b （备注Java）
[外链图片转存中…(img-TqtlbyQK-1711658035783)]

最后的话

部分截图：
[外链图片转存中…(img-ev6Y2ifU-1711658035783)]

高级编程TOP

关注

28
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
hive学习笔记之六：HiveQL基础，搞定kafka看这一篇就够了

无论是哪家公司，都很重视Spring框架技术，重视基础，所以千万别小看任何知识。面试是一个双向选择的过程，不要抱着畏惧的心态去面试，不利于自己的发挥。同时看中的应该不止薪资，还要看你是不是真的喜欢这家公司，好了希望这篇文章对大家有帮助！部分截图：既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！
复制链接

扫一扫