《Hive - A Warehousing Solution Over a Map-ReduceFramework》

最新推荐文章于 2024-07-21 15:17:20 发布

中关村_周某

最新推荐文章于 2024-07-21 15:17:20 发布

阅读量370

点赞数 1

分类专栏：大数据论文文章标签：数据仓库大数据

本文链接：https://blog.csdn.net/weixin_39666736/article/details/118873907

版权

4 篇文章 0 订阅

订阅专栏

Hadoop是一种开源的MapReduce实现（以下简称MapReduce为MR），MR框架太慢了，并且开发人员需要自定义写MR代码，因此诞生了Hive

数据在Hive中被划分为Tables、Partitions、Bucket，这种数据划分是之后很多存储组件的开山鼻祖。

不同开源组件的数据划分，原始表都是table，后续划分只不过是名称不一样，大体思想是一致的：

	Hive	Doris	Kudu
一级划分	Partition	Partition	Tablet
二级划分	Bucket	Bucket	RowSet

HQL和SQL没啥大区别，SQL支持的，HQL也支持，比如select、project、join、aggregate、union等，不多介绍了

概念补充：sql project就是，select col_1,col_2,col_3 只返回指定列的操作叫做投影（project）

注意，Hive的数据是存在HDFS中的，元数据是存在mysql中的，hive本身不存数据，可以把hive简单理解为将类SQL转为MR任务的框架
https://blog.csdn.net/qq_31246691/article/details/79467358

Hive的主要组件

External interface：有CLI命令行、webUI、应用编程接口JDBC（java）、ODBC（C++）
thirft server：thrift是一个跨语言服务框架，支持客户端不同的语言需求
MetaStore：metastore是系统级目录
Driver：driver在编译、优化、执行的过程中管理HiveQL的生命周期。在从CLI、webUI或者thrift server接收到HiveQL语句时，会创建一个session handle，后续用来跟踪语句的执行时间、输出行数等信息。
Compiler：driver收到HQL会调用compiler，compiler将HQL语句转化为由MapReduce任务组成的DAG（有向无环图），目前（发表论文时）Hive的执行引擎使用的是Hadoop

接下来详细介绍了metastore和compiler这两个组件

metastore是Hive系统级别的目录，记录了存储在Hive中表的元数据，
metastore包含以下内容：

①库；②表，表的元信息有：列及类型、所有者、底层数据的位置、数据格式、数据备份信息、SerDe（序列化器、反序列化器的方法实现类）；③分区信息

注意，metastore需要对随机访问的数据的更新进行元数据的更新，因此不能用HDFS（HDFS适合顺序扫描），metastore使用的是传统的关系型数据库如mysql或者文件系统如（NFS、AFS）

对于insert和查询语句，compiler将HQL转化为MR组成的DAG

关注