Hive概述及其基本原理

最新推荐文章于 2024-07-28 14:07:27 发布

zkyCoder

最新推荐文章于 2024-07-28 14:07:27 发布

阅读量4k

点赞数 4

分类专栏： Hadoop 文章标签： hive big data hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41812379/article/details/121193508

版权

Hive是一个基于Hadoop的数据仓库工具，提供类SQL查询功能，用于大规模数据分析。它将SQL语句转换为MapReduce任务在HDFS上执行。Hive包括用户接口、驱动模块和元数据存储，其工作流程涉及编译、优化和执行MR任务。Hive适合批处理分析，不适用于实时查询。此外，Hive HA通过HAProxy实现高可用性。

摘要由CSDN通过智能技术生成

Hive是一个基于Hadoop的数据仓库工具, 可以将结构化的数据文件映射为一张表, 并提供类似于SQL的查询功能。

Hive本身并不存储和处理数据，更像是一个接口，存储由HDFS实现，处理数据由MapReduce实现。简单来说，Hive可以将sql语句转换为MapReduce任务，在HDFS上进行数据查询。

Hive的特点

Hive采用类SQL开发，简单容易上手，避免了编写MapReduce的工作
Hive执行延迟比较高，无法胜任实时的工作（OLTP），大多用于数据分析工作（OLAP）。
Hive擅长处理大规模的数据

Hive系统架构

在这里插入图片描述
（图源：https://zhuanlan.zhihu.com/p/25608332）

Hive主要由以下三个模块组成：

用户接口模块，含CLI、HWI、JDBC、Thrift Server等，用来实现对Hive的访问。CLI是Hive自带的命令行界面；HWI是Hive的一个简单网页界面；JDBC、ODBC以及Thrift Server可向用户提供进行编程的接口，其中Thrift Server是基于Thrift软件框架开发的，提供Hive的RPC通信接口。
驱动模块（Driver），含编译器、优化器、执行器等，负责把HiveQL语句转换成一系列MR作业，所有命令和查询都会进入驱动模块，通过该模块的解析变异，对计算过程进行优化，然后按照指定的步骤执行。
元数据存储模块（Metastore），是一个独立的关系型数据库，通常与MySQL数据库连接后创建的一个MySQL实例，也可以是Hive自带的Derby数据库实例。此模块主要保存表模式和其他系统元数据，如表的名称、表的列及其属性、表的分区及其属性、表的属性、表中数据所在位置信息等。

Hive工作原理

接下来，我们使

最低0.47元/天解锁文章

关注

4
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zkyCoder CSDN认证博客专家 CSDN认证企业博客

码龄7年

33: 原创

39万+: 周排名

198万+: 总排名

8万+: 访问

: 等级

464: 积分

20: 粉丝

77: 获赞

7: 评论

542: 收藏

私信

关注

热门文章

分类专栏

Hadoop 9篇
leetcode 8篇
数据仓库 3篇
Redis 1篇
Kafka 2篇
ZookKeeper 1篇
ClickHouse 1篇
JVM 4篇
Spark 10篇
数据库 1篇
Flume 1篇
Spring系列 1篇
Java基础 1篇
小工具 2篇

最新评论

JVM内存结构
LTHMine: JDK 7 开始，静态变量改存放到 java.lang.Class 对象的末尾，即 Heap 中。 1.8之后方法区叫元空间，主要存字节码文件，静态变量还是存在堆内存，你别评论害人了
JVM内存结构
火从木来: 怎么玩意？哈？静态变量在堆？我去，静态变量再元空间！！！！！！！ok?别害人附上链接：https://www.jianshu.com/p/6b5dd67dc732
OLAP多维分析
哈哈__哈哈: 请问这个三维立方图是用哪种工具画的啊？
Spark Shuffle
冰雪_ang: 作者写的很好，一直不明白在shuffle阶段有没有做key排序，结合作者的文章和自己debug源码，确认，作者所列的shuffle算子： 1、map阶段，为了保证同一分区的数据在文件中连续，会进行partitionid的排序，但不会进行key的排序。 2、在reduce阶段，sortByKey,sortBy,repartitionAndSortWithinPartitions三个算子会进行key的排序，其他算子不会进行排序，因为在这三个算子中会调用ShuffledRDD的setKeyOrdering方法赋值KeyOrdering。给大佬敬花：
JVM内存结构
Forever & Always: 感谢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。