Hive简介

最新推荐文章于 2023-05-16 00:01:39 发布

devtao

最新推荐文章于 2023-05-16 00:01:39 发布

阅读量1.9k

点赞数

分类专栏： Hadoop人门

本文链接：https://blog.csdn.net/devtao/article/details/14434487

版权

Hadoop人门专栏收录该内容

10 篇文章 0 订阅

订阅专栏

什么是Hive?

Hive是建立在Hadoop上的一套类似SQL的访问接口，可以通过Hive QL实现MapReduce Job的工作。

Hive的缺点：

1.由于Hadoop是批处理系统，具有延迟性，所以Hive即使处理非常小的数据集也会出现延迟现象。

2.Hive不提供排序和查询Cache功能，不提供在线事务处理，也不提供实时的在线查询和记录级的更新。

什么是Hive元数据？

管理Hive的数据，所有的表名，列名，库名，分区名等等都使存储在元数据中。Hive的元数据面临更新修改和读取操作故存储在RDBMS中。

Hive的数据存储：

Hive中主要包含四类数据模型：表，分区，桶，外部表

表：Hive中的表和RDBMS中的表概念类似，在Hive中每个表都有一个存储目录。如表htable在HDFS中的路径为：/datewarehouse/htable,其中datewarehouse使在配置文件hive-site.xml指定的数据仓库目录，所有的表都保存在这个目录中。

分区：Hive中每个分区都对应数据库中分区列的一个索引，但是其分区的组织方式和RDBMS不同。在Hive中表的一个分区对应表下的一个目录，所有分区数据存储在对应目录中。如htable有ds和city两个分区，分别对应两个目录，ds=20100301,city=Beijing的子目录为/datewarehouse/htable/ds=20100310/city=Beijing;对应ds=20100310,city=ShangHai的HDFS子目录为/datewarehouse/htable/ds=20100310/city=Shanghai

桶：Hive中的桶对指定列进行Hash计算，会根据Hash值切分数据，使每个桶对应一个文件。如：将熟悉user列分散到32个桶中，要先对user列的值进行hash计算对应hash值为0的桶写入/datewarehouse/htable/ds=20100301/Beijing/part-00000;对应哈希值为10的目录为：/datewarehouse/htable/ds=20100301/city=Beijing/part-00010，依次类推。

外部表：外部表指向已经在HDFS中的数据，外部表和表的主要差异：

1）创建表的过程分两步：表创建过程和数据加载步骤。在数据加载过程中，实际数据会移动的数据仓库所在的目录中，之后的数据访问会直接在数据仓库目录中完成。在删除表时，表中的数据和元数据会同时删除

2）外部表的创建只有一个步骤，创建表和加载数据同时完成。实际数据存储在创建语句LOCATION指定的HDFS路径，并不会移动到数据仓库目录中。删除外部表仅删除元数据，表中的数据不会被删除。

Hive的访问接口：

命令行接口，WebUI接口，jdbc接口