大数据基础平台——Hive数据查询操作

最新推荐文章于 2024-03-30 00:19:17 发布

樱桃小叮当

最新推荐文章于 2024-03-30 00:19:17 发布

阅读量767

点赞数

分类专栏：大数据基础平台文章标签：数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hydrox_/article/details/126913005

版权

大数据基础平台专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1.实验目的

认识与了解基本查询；
认识与了解数据聚合；
认识与了解数据连接。

2.实验内容及结果截屏

基本查询

①使用SELECT ... FROM ... LIMIT ...语句从航班表flights.flights14中选取所有列，并返回前5行：

②使用WHERE语句筛选航班表flights.flights14中出发地（列origin）为'JFK'、月份（列month）为6月的数据行：

③使用ORDER BY语句将返回结果按出发地（列origin）顺序、目的地（列dest）倒序排列：

④使用SELECT语句后跟列名，选取航班到达延误分钟数（列arr_delay）和出发延误分钟数（列dep_delay），并使用AS关键词将这两列重命名为delay_arr和delay_dep：

⑤使用SELECT语句后跟列名的表达式，新计算返回2列：平均速度（列speed）和总延误分钟数（列delay）：

⑥在SELECT语句中，使用DISTINCT关键词表示仅选取独立值：

（2）数据聚合

①调用聚合函数count()计算表flights.flights14的行数：

②使用GROUP BY语句指定按出发地（列origin）分组，计算各出发地的行数：

③使用GROUP BY语句指定多个列，计算各不同出发地（列origin）和目的地（列dest）的组合中，航空公司代码（列carrier）为'AA'的行数：

④使用HAVING语句对聚合结果做进一步筛选，返回所有出发地（列origin）和目的地（列dest）组合中，航空公司代码（列carrier）为'AA'的行数大于3000的记录：

⑤常用聚合函数

（3）数据连接

①内连接

使用INNER JOIN命令做内连接，并指定连接条件为航空公司代码（列carrier）相等：

计算内连接后的记录条数：

②左连接

使用LEFT JOIN命令做左连接，并指定连接条件为航空公司代码（列carrier）相等：

计算左连接后的记录条数：

选取连接结果中航空公司描述（列description）为空的记录：

③全连接

使用FULL JOIN命令做全连接，并指定连接条件为航空公司代码（列carrier）相等：

计算全连接后的记录条数：

3.实验分析及小结

在此次实验过程中，我初步认识、了解了基本查询、数据聚合与数据连接。由于步步紧跟指导，我的实验过程十分顺利，没有遇上问题。而在实验过程中，我体会到了不同的操作语句的执行时长的差异，例如倒序排列所需时间较长。在之后的实验中，我会更加细致，多学习到一些知识。

樱桃小叮当

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据基础平台——Hive数据查询操作

（1）认识与了解基本查询；（2）认识与了解数据聚合；（3）认识与了解数据连接。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

樱桃小叮当 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。