hive学习笔记之六:HiveQL基础,搞定kafka看这一篇就够了

  1. Sqoop

  2. 基础UDF

  3. 用户自定义聚合函数(UDAF)

  4. UDTF

本篇概览

  • 本文是《hive学习笔记》系列的第六篇,前面的文章咱们对数据类型、表结构有了基本了解,接下来对常用的查询语句做一次集中式的学习;

  • HiveQL与SQL类似, 在语法上与大部分SQL兼容, 但是并非完全兼容,例如更新、事务等都不支持,子查询和join操作也有限, 这和底层依赖Hadoop有关;

准备数据

  1. 本次实战要准备两个表:学生表和住址表,字段都很简单,如下图所示,学生表有个住址ID字段,是住址表里的记录的唯一ID:

在这里插入图片描述

  1. 先创建住址表:

create table address (addressid int, province string, city string)

row format delimited

fields terminated by ‘,’;

  1. 创建address.txt文件,内容如下:

1,guangdong,guangzhou

2,guangdong,shenzhen

3,shanxi,xian

4,shanxi,hanzhong

6,jiangshu,nanjing

  1. 加载数据到address表:

load data

local inpath ‘/home/hadoop/temp/202010/25/address.txt’

into table address;

  1. 创建学生表,其addressid字段关联了address表的addressid字段:

create table student (name string, age int, addressid int)

row format delimited

fields terminated by ‘,’;

  1. 创建student.txt文件,内容如下:

tom,11,1

jerry,12,2

mike,13,3

john,14,4

mary,15,5

  1. 加载数据到student表:

load data

local inpath ‘/home/hadoop/temp/202010/25/student.txt’

into table student;

  1. 至此,本次操作所需数据已准备完毕,如下所示:

hive> select * from address;

OK

1 guangdong guangzhou

2 guangdong shenzhen

3 shanxi xian

4 shanxi hanzhong

6 jiangshu nanjing

Time taken: 0.043 seconds, Fetched: 5 row(s)

hive> select * from student;

OK

tom 11 1

jerry 12 2

mike 13 3

john 14 4

mary 15 5

Time taken: 0.068 seconds, Fetched: 5 row(s)

  • 开始体验HiveQL

select和where

最普通的带条件查询:

hive> select * from address where city like ‘%a%’;

OK

1 guangdong guangzhou

3 shanxi xian

4 shanxi hanzhong

6 jiangshu nanjing

Time taken: 0.128 seconds, Fetched: 4 row(s)

group by

  1. 按province字段分组:

select province, count(*) from address group by province;

该查询会触发MR计算,结果如下:

Total MapReduce CPU Time Spent: 1 seconds 910 msec

OK

guangdong 2

jiangshu 1

shanxi 2

Time taken: 17.847 seconds, Fetched: 3 row(s)

  1. 试试嵌套查询,内部是查出city字段带有a字母的记录,然后将这些记录按照province字段分组:

select t.province, count(*) from (

select * from address where city like ‘%a%’

) t

group by t.province;

结果如下:

Total MapReduce CPU Time Spent: 1 seconds 760 msec

OK

guangdong 1

jiangshu 1

shanxi 2

Time taken: 18.036 seconds, Fetched: 3 row(s)

having

  • 前面的嵌套查询,结果有两个省:guangdong和shanxi,如果再加个条件:只显示城市数量大于1的省,首先想到的是再加一层嵌套:

select t1.* from (

select t.province, count(*) as cnt from (

select * from address where city like ‘%a%’

) t

group by t.province) t1

where t1.cnt>1;

结果如下,可见只有shanxi被显示了:

Total MapReduce CPU Time Spent: 2 seconds 250 msec

OK

shanxi 2

Time taken: 20.067 seconds, Fetched: 1 row(s)

  • 对于上述SQL,可以用having语法进行分组筛选,得到同样数据:

select t.province, count(*) as cnt from (

select * from address where city like ‘%a%’

) t

group by t.province having cnt>1;

order by

  • 对分组结果做排序:

select t.province, count(*) as cnt from (

select * from address where city like ‘%a%’

) t

group by t.province order by cnt;

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024b (备注Java)
img

最后的话

无论是哪家公司,都很重视Spring框架技术,重视基础,所以千万别小看任何知识。面试是一个双向选择的过程,不要抱着畏惧的心态去面试,不利于自己的发挥。
同时看中的应该不止薪资,还要看你是不是真的喜欢这家公司,好了希望这篇文章对大家有帮助!

部分截图:
在这里插入图片描述

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!*

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024b (备注Java)
[外链图片转存中…(img-TqtlbyQK-1711658035783)]

最后的话

无论是哪家公司,都很重视Spring框架技术,重视基础,所以千万别小看任何知识。面试是一个双向选择的过程,不要抱着畏惧的心态去面试,不利于自己的发挥。
同时看中的应该不止薪资,还要看你是不是真的喜欢这家公司,好了希望这篇文章对大家有帮助!

部分截图:
[外链图片转存中…(img-ev6Y2ifU-1711658035783)]

  • 28
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值