【大数据】Hive入门

ZLin0007

已于 2023-09-17 20:33:30 修改

阅读量89

点赞数

文章标签：大数据 hive hadoop

于 2023-09-17 20:30:12 首次发布

本文链接：https://blog.csdn.net/m0_74284814/article/details/132951764

版权

文章目录

一、Hive入门
1. 什么是Hive
1.1 Hive简介
1.2 Hive本质
1.3 优缺点

2. Hive架构原理
2.1 用户接口：Client
2.2 元数据：Metastore
2.3 驱动器：Driver
2.4 Hadoop

3. 和数据库比较

一、Hive入门

1. 什么是Hive

1.1 Hive简介

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

需求，统计单词出现个数。
（1）在Hadoop课程中我们用MapReduce程序实现的，当时需要写Mapper、Reducer和Driver三个类，并实现对应逻辑，相对繁琐。
（2）如果通过Hive SQL实现，一行就搞定了，简单方便，容易理解。 select count(*) from test group by id;

1.2 Hive本质

Hive是一个Hadoop客户端，用于将HQL（Hive SQL）转化成MapReduce程序：

Hive中每张表的数据存储在HDFS
Hive分析数据底层的实现是MapReduce（也可配置为Spark或者Tez）
执行程序运行在Yarn上

1.3 优缺点

优点：

操作接口采用类SQL语法，提供快速开发的能力
避免了去写MR
Hive的执行延迟比较高，所以Hive常用语数据分析，对实时性要求不高的场合
Hive优势在于处理大数据，对于处理小数据没有优势，因为执行延迟比较高
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数

缺点：

HQL表达能力有限
迭代式算法无法表达
数据挖掘方面不擅长，由于MapReduce数据处理流程的限制，效率更高的算法无法实现
Hive的效率比较低
Hive自动生成的MapReduce作业，通常情况下不够智能化
Hive调优比较困难，粒度较粗。更多的还是需要通过调整Hadoop参数进行调优。

2. Hive架构原理

在这里插入图片描述

2.1 用户接口：Client

CLI（command-line interface）、JDBC/ODBC。

JDBC和ODBC的区别。
（1）JDBC的移植性比ODBC好；（通常情况下，安装完ODBC驱动程序之后，还需要经过确定的配置才能够应用。而不相同的配置在不相同数据库服务器之间不能够通用。所以，安装一次就需要再配置一次。JDBC只需要选取适当的JDBC数据库驱动程序，就不需要额外的配置。在安装过程中，JDBC数据库驱动程序会自己完成有关的配置。）
（2）两者使用的语言不同，JDBC在Java编程时使用，ODBC一般在C/C++编程时使用。

2.2 元数据：Metastore

元数据（Meta Date），主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL
的任务运行状态。一般会通过元数据资料库（Metadata
Repository）来统一地存储和管理元数据，其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。

元数据包括：数据库（默认是default）、表名、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。

技术元数据，比如表结构、字段定义、文件存储等信息
业务元数据，比如业务定义、业务术语、业务规则、业务指标等
管理元数据，比如数据所有者、数据质量定责、数据安全等级等

默认存储在自带的derby数据库中，由于derby数据库只支持单客户端访问，生产环境中为了多人开发，推荐使用MySQL存储Metastore。

客户端连接metastore服务，metastore再去连接MySQL数据库来存取元数据。有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore
服务即可。

2.3 驱动器：Driver

解析器（SQLParser）：将SQL字符串转换成抽象语法树（AST）
语义分析（Semantic Analyzer）：将AST进一步划分为QeuryBlock
逻辑计划生成器（Logical Plan Gen）：将语法树生成逻辑计划
逻辑优化器（Logical Optimizer）：对逻辑计划进行优化
物理计划生成器（Physical Plan Gen）：根据优化后的逻辑计划生成物理计划
物理优化器（Physical Optimizer）：对物理计划进行优化
执行器（Execution）：执行该计划，得到查询结果并返回给客户端

2.4 Hadoop

使用HDFS进行存储，可以选择MapReduce/Tez/Spark进行计算。

3. 和数据库比较

由于Hive采用了类似SQL的查询语言 HQL（Hive Query Language），因此很容易将Hive理解为数据库。其实从结构上看，Hive和数据库除了拥有类似的查询语言外，再无类似之处。数据库可以用在 online 应用中，但是 Hive 是为数据仓库而设计的。

查询语言：由于SQL被广泛的应用在数据仓库中，所以专门针对Hive的特性设计了类似SQL的查询语言HQL。熟悉SQL的开发者可以很方便的使用Hive进行开发。
数据更新：由于Hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive中不建议对数据的改写，所有的数据都是在加载的时候确定好的。
Hive不建议对数据改写，但是也支持update语句：将数据文件从HDFS上下载下来，然后改写之后重新上传覆盖原文件，效率很低。
而数据库中的数据通常是需要经常进行修改的，因此可以使用 inert into … values添加数据，使用 update … set 修改数据。
执行延迟：Hive在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟比较高。另外一个导致Hive执行延迟高的因素是 MapReduce 框架。由于 MapReduce 本身具有较高的延迟，因此在利用 MapReduce 执行 Hive查询时，也会有较高的延迟。
相对的，数据库的执行延迟较低（在数据规模比较小时）。
当数据规模大到超过数据库的处理能力时，Hive的并行计算显然能体现出优势。
数据规模：由于Hive建立在集群上，并可以利用 MapReduce 进行并行计算，因此可以支持很大规模的数据。
对应的，数据库可以支持的数据规模比较小。

ZLin0007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【大数据】Hive入门

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。需求，统计单词出现个数。（1）在Hadoop课程中我们用MapReduce程序实现的，当时需要写Mapper、Reducer和Driver三个类，并实现对应逻辑，相对繁琐。（2）如果通过Hive SQL实现，一行就搞定了，简单方便，容易理解。
复制链接

扫一扫