数据仓库Hive详细介绍

最新推荐文章于 2024-07-28 09:19:34 发布

heart of sea

最新推荐文章于 2024-07-28 09:19:34 发布

阅读量2k

点赞数 1

分类专栏： BigData 文章标签：大数据 hive

本文链接：https://blog.csdn.net/qq_42112448/article/details/106416216

版权

BigData 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

简介

Hive是基于Hadoop的一一个数据仓库工具，可以将结构化的数据文件映射为一-张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，Hive在Hadoop之上提供了数据查询的能力，主要解决非关系型数据查询问题。

Hive可以被认为是一种数据仓库，包括数据的存储以及查询

Hive包括一个高层语言的执行引擎，类似于SQL的执行引擎

Hive建立在Hadoop的其它组成部分之上，Hive依赖于HDFS进行数据保存，依赖于MapReduce完成查询操作
在这里插入图片描述

Hive与Hbase对比

Hbase和Hive在大数据架构中处于不同的位置。
Hbase主要解决实时海量数据查询问题，弥补了Hadoop对实时操作的缺陷，通过存储keyvalue来工作。
Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，主要解决数据处理和计算问题，进行离线批量数据计算。

Hive的组成模块

在底层执行时，一个Hive程序将由编译器转换成很多个MapReduce程序加以执行。

Hive的模块非常类似于传统的数据库的模块，下面是Hive的必要组成模块以及对应的功能介绍：

HiveQL：这是Hive的数据查询语言，与SQL非常类似。Hive提供了这个数据查询语言与用户的接口，包括一个shell的接口，可以进行用户的交互以及网络接口与JDBC接口。JDBC接口可以用于编程，与传统的数据库编程类似，使得程序可以直接使用Hive功能而无需更改

Driver：Hive驱动，用以将各个组成部分形成一个有机的执行系统，包括会话的处理，查询获取以及执行驱动

Compiler：Hive需要一个编译器，将HiveQL语言编译成中间表示，包括对于HiveQL语言的分析，执行计划的生成以及优化等工作

Execution Engine：执行引擎，在Driver的驱动下，具体完成执行操作，包括MapReduce执行，或者HDFS操作，或者元数据操作

Metastore：元数据存储层，用以存储元数据：存储操作的数据对象的格式信息，在HDFS中的存储位置的信息以及其他的用于数据转换的信息SerDe等。元数据通常存储在关系数据库中，默认情况下使用本地的Derby数据库，用户也可以配置使用支持JDBC的MySQL数据库。
在这里插入图片描述

Hive数据类型

●Hive支持的数据类型，主要分为两种：基本数据类型和复合数据类型。
1）基本数据类型
TINYINT/SMALLINT/INT/BIGINT
FL0AT/DOUBLE
BOOLEAN
STRING

2）复合数据类型
ARRAY：-组类型相同的数据
MAPS：-组键值对，键和值都必须是同一-类型
STRUCTS：–组任意标准类型的数据

Hive存储和压缩

Hive没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由地组织Hive中的表，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。

Hive中的数据都存储在HDFS中，Hive中包括以下数据模型：Table（表）、External Table（外部表）、Partition（分区）、Bucket（桶）。

Hive的数据模型

每一个类似于数据库的系统都首先需要定义一个数据模型，然后才是在这个数据模型之，上的各种操作。

Hive表在逻辑上由存储的数据和描述表格中数据形式的相关元数据组成。

在物理实现上：
数据一般存放在HDFS上。
Hive把元数据放在关系型数据库中，并不是放在HDFS上。

Hive Metastore

●Metastore（元数据存储层）是Hive元数据的集中存放地
●Metastore默认使用内嵌的Derby数据库作为存储引擎
●Derby引擎的缺点：–次只能打开一一个会话
●使用MySQL作为外置存储引擎，多用户同时访问

Tables：Hive的数据模型由数据表组成

与数据库中的Table在概念上类似，每一个Table在HDFS中都有一个固定的位置存储数据。例如，一个表test，它在HDFS中的路径为/warehouse/test，warehouse是在hive-sitexml中由S{hive metastore warehouse dir}指定的数据仓库的目录，所有的table数据都保存在这个目录中。删除表时，元数据与数据都会被删除。

数据表中的列是有类型的（int，float，string，data，boolean），也可以是复合的类型，如list：map（类似于JSON形式的数据）