我眼中的Hive-你眼中的了?

原创已于 2022-12-27 10:37:25 修改 · 4k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #大数据 #数据仓库

于 2022-12-07 22:01:59 首次发布

数据库同时被 2 个专栏收录

3 篇文章

订阅专栏

数据仓库

1 篇文章

订阅专栏

本文介绍了Hive作为基于Hadoop的数据仓库工具的功能和用途。它能够处理海量结构化数据，提供类SQL查询功能，并简化MapReduce任务的创建过程。文章还详细阐述了Hive的体系结构、运行机制及优缺点。

文章目录

万花筒
- 大众眼中的hive
- 我眼中的hive
Hive的生母
Hive体系结构
Hive的运行机制
- Hive的核心-编译器
Hive的优缺点

万花筒

大众眼中的hive

hive是基于Hadoop的一个数据仓库工具，我们经常用来对数据仓库进行数据统计分析。其中包括我们大家都知道的通过类似SQL语句实现快速MapReduce统计，将数据进行提取、转化、加载。

这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。它使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。

我眼中的hive

Hive：由Facebook开发用于解决海量结构化日志的数据统计。
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL 查询功能。
Hive是构建在Hadoop之上的数据仓库平台。
Hive是一个SQL解析引擎,它将SQL语句转译成MapReduce作业并在Hadoop上执行。
Hive表是HDFS的一个文件目录，一个表名对应一个目录名，如果有分区表的话，则分区值对应子目录名。
它的本质是：将HQL转化成MapReduce 程序

Hive的生母

Hive是Facebook开发的，构建于Hadoop集群之上的数据仓库应用。2008年Facebook将Hive项目贡献给Apache，成为ASF开源顶级项目。
目前最新版本hive-4.0.0

Hive体系结构

Hive在Hadoop 心中的位置

我们来看一下Hive在Hadoop 心中的位置。
在这里插入图片描述

Hive的设计特征

做为Hadoop 的数据仓库处理工具，它所有的数据都存储在Hadoop 兼容的文件系统中。Hive在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS 中Hive 设定的目录下，因此，Hive不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。Hive 的设计特点如下。

1、支持索引，加快数据查询。
2、不同的存储类型，例如，纯文本文件、HBase 中的文件。
3、将元数据保存在关系数据库中，减少了在查询中执行语义检查时间。
4、可以直接使用存储在Hadoop 文件系统中的数据。
内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作。
5、类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。
6、编码跟Hadoop同样使用UTF-8字符集。