【大数据基础实践】(六)数据仓库Hive的基本操作_熟悉hive的基本操作

最新推荐文章于 2024-05-15 20:30:52 发布

2401_84181911

最新推荐文章于 2024-05-15 20:30:52 发布

阅读量517

点赞数 11

分类专栏：程序员文章标签：大数据数据仓库 hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84181911/article/details/138337920

版权

本文介绍了Hive在大数据生态中的角色，详细讲解了Hive的系统架构，包括用户接口、驱动模块和元数据存储。探讨了HQL如何转化为MapReduce作业，特别讨论了join和group by的实现原理。此外，提供了详尽的Hive环境配置教程，涉及Hive、MySQL的安装与配置，并将MySQL设为Hive的元数据存储数据库。最后，通过一系列实验练习，展示了Hive的基本操作，如新建数据库、表、分区，数据导入、查询与统计分析。

摘要由CSDN通过智能技术生成

2.3 生态系统

Hive依赖于HDFS 存储数据、
Hive依赖于MapReduce 处理数据
在某些场景下Pig可以作为Hive的替代工具
HBase 提供数据的实时访问
Pig主要用于数据仓库的ETL环节
Hive主要用于数据仓库海量数据的批处理分析

在这里插入图片描述

3. Hive系统架构

用户接口模块。包括CLI、HWI、JDBC、ODBC、Thrift Server
驱动模块（Driver）。包括编译器、优化器、执行器等，负责把HiveQL语句转换成一系列MapReduce作业
元数据存储模块（Metastore）。是一个独立的关系型数据库（自带derby数据库，或MySQL数据库）

在这里插入图片描述

4. HQL转成MapReduce作业的原理

4.1 join的实现原理

select name, orderid from user join order on user.uid=order.uid;

在这里插入图片描述

4.2 group by的实现原理

存在一个分组（Group By）操作，其功能是把表Score的不同片段按照rank和level的组合值进行合并，计算不同rank和level的组合值分别有几条记录：

select rank, level ,count(\*) as value from score group by rank, level

在这里插入图片描述

5. 实验练习

5.1 环境配置

5.1.1 HIVE

在这里插入图片描述
将Hive解压到/usr/local中

更改名字

更改hive目录所有者和所在用户组

环境配置

使环境生效

5.1.2 MYSQL

更新软件源
在这里插入图片描述

最低0.47元/天解锁文章

关注

11
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
【大数据基础实践】(六)数据仓库Hive的基本操作_熟悉hive的基本操作

解决方法：查看hadoop安装目录下 share/hadoop/common/lib 内 guava.jar 版本，查看 hive安装目录下lib内guava.jar的版本，如果两者不一致，删除版本低的，并拷贝高版本的。在表student_zqc中添加两个分区Dept=’CS’和Dept=’SE’，从本地导入数据到student_xxx表的两个分区中，分别查看两个分区所有记录，查看表数据存储目录；从HDFS导入数据到grade_xxx表中，查看grade_xxx表所有记录，查看表数据存储目录；
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。