【Hive---02】hive概述『 what | 优缺点 | 架构 | Hivevs MySQL』

ElegantCodingWH

已于 2023-02-11 21:59:21 修改

阅读量1k

点赞数

分类专栏： # Hive 文章标签： hive hadoop 架构

于 2022-10-21 11:18:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43546676/article/details/127431083

版权

Hive 专栏收录该内容

39 篇文章 10 订阅

订阅专栏

文章目录

1. 什么是Hive？
2. Hive优缺点
3. Hive架构
4. Hive vs MySQL

1. 什么是Hive？

hive是建立在Hadoop上的一个一个数据仓库。
它可以将存储在Hadoop的结构化、半结构化数据映射为一张张数据库表。
它提供了一种类似SQL的查询语言HQL，通过HQL可以查询Hadoop中的数据。
hive包含了SQL解析引擎，它会将HQL转换为MapReduce Job，然后在Hadoop中执行。

2. Hive优缺点

优点：
1. 采用类SQL语法，避免了去写复杂的MR，提高开发效率
2. Hive支持用户自定义函数
3. 背靠hadoop适合处理大数据。
缺点：
1. Hive的执行延迟比较高，所以不适合处理小文件，不适合对实时性要求高的场景
2. Hive调优比较困难，更多的还是需要通过调整Hadoop参数进行调优。

3. Hive架构

hive有3大组件：

用户接口：用户输入HQL的地方。提供的接口有三种：命令接口、网络接口(比如jdbc等)、web图形化接口
元数据存储(metastore)：真正的数据是存储在hadoop的hdfs中的，元数据存储在关系型数据库中。(可以使用hive内置的轻量级Derby关系型数据库，也可以使用第三方的MySQL数据库)。
- 元数据：是描述数据的数据。比如表的名字，表的字段等等。
- Derby数据库只支持单会话，当启动两个及以上的hive客户端时，就会报错。所以开发中通常使用Mysql存储元数据
驱动程序：对HQL的解析、优化优化以及查询计划的生成。生成的查询计划存储在 hdfs中，随后由计算引擎执行。
hive不直接处理数据，而是通过计算引擎处理。hive支持的计算引擎有4种：Hadoop的MapReduce、Tez、Spark、Fink 。
- 【MR是hive的默认执行引擎】
- 【Tez源于MR，核心是将Map和Reduce两个阶段做进一步的拆分，然后对元数据灵活组合，提高效率】
- 【spark：采用内存计算。MR和Tez的Shffle阶段会将中间计算结果写入磁盘，而spark将数据从hdfs中读取后一直在内存，中间计算结果是不会被写进磁盘的，一直到最终结果才会写入磁盘。这样大幅度的提高了效率】
- 【Fink：也是次啊用内存计算，但是用于实时计算的场景】

在这里插入图片描述

4. Hive vs MySQL

hive不是大型数据库，也不是要取代数据库。虽然两者很像，但其本质不同：

hive是数据仓库，面向分析的(OLAP)。侧重于查询历史数据进行分析。
mysql 是数据库，面向业务的(OLTP)。侧重于CRUD、关心数据的响应时间、安全性、完整性等，保证高效的完成业务问题

在这里插入图片描述

ElegantCodingWH

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Hive---02】hive概述『 what | 优缺点 | 架构 | Hivevs MySQL』

1. 什么是Hive？2. Hive优缺点3. Hive架构4. Hivevs MySQL
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ElegantCodingWH 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。