Hive及其架构

最新推荐文章于 2021-12-16 00:23:05 发布

霄嵩

最新推荐文章于 2021-12-16 00:23:05 发布

阅读量298

点赞数

分类专栏： Hive 文章标签： hive

本文链接：https://blog.csdn.net/accptanggang/article/details/77368117

版权

Hive 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、什么是Hive？
1、由FaceBook开源用于解决海量结构化日志的数据统计。
2、Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。
3、构建在Hadoop之上的数据仓库:
使用HQL作为查询接口；
使用HDFS存储；
使用MapReduce计算；
4、本质是：将HQL转化成MapReduce程序。
5、灵活性和扩展性比较好：支持UDF，自定义存储格式等。

6、适合离线数据处理。

二、Hive架构
1、用户接口Client
CLI（hive shell）、JDBC/ODBC(Java访问Hive)，WEBUI（浏览器访问Hive）
2、元数据：MetaStore
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
默认存储在自带的derby数据库中，推荐使用MySQL存储MetaStore;
3、Hadoop
使用HDFS进行存储，使用MapReduce进行计算。
4、驱动器：Driver
包含：解析器、编译器、优化器、执行器；
解析器：将SQL字符串转换成抽象语法器AST，这一步一般都用第三方工具库完成，比如antlr; 对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误（比如select中被判定为聚合的字段在group by中是否有出现）；
编译器：将AST编译生成逻辑执行计划；
优化器：对逻辑执行计划进行优化；
执行器：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/TEZ/Spark。

霄嵩

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive及其架构

一、什么是Hive？1、由FaceBook开源用于解决海量结构化日志的数据统计。2、Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。3、构建在Hadoop之上的数据仓库:使用HQL作为查询接口；使用HDFS存储；使用MapReduce计算；4、本质是：将HQL转化成MapReduce程序。5、灵活性和扩展性比
复制链接

扫一扫

专栏目录