Hive简介

Dream陌影

已于 2022-05-16 13:50:51 修改

阅读量488

点赞数 1

分类专栏： # Hadoop 文章标签： hive

于 2022-05-16 11:38:07 首次发布

本文链接：https://blog.csdn.net/qq_43060411/article/details/124796588

版权

2 篇文章 0 订阅

订阅专栏

Hive是一个基于Hadoop的数据仓库工具，提供类SQL查询语言HQL，简化大数据处理。它适合离线分析（OLAP）、扩展性和元数据管理，但效率较低，不适合实时查询。Hive的执行引擎可选MR、Spark、Tez，其工作流程涉及查询解析、编译和MapReduce执行。

摘要由CSDN通过智能技术生成

hive是一个构建在Hadoop上的数据仓库工具(框架)，可以将结构化的数据文件映射成一张数据表，并可以使用类sql的方式来对这样的数据文件进行读，写以及管理（包括元数据）。这套HIVE SQL 简称 HQL。hive的执行引擎可以是MR、spark、tez。

如果执行引擎是MapReduce的话，hive会将Hql翻译成MR进行数据的计算。用户可以使用命令行工具或JDBC驱动程序来连接到hive。

1.学习成本低
提供了类SQL查询语言HQL(简单，容易上手)，避免了直接写MapReduce（适合java语言不好的，sql 熟练的人），减少开发人员的学习成本。

2.可扩展性好
为超大数据集设计了计算/扩展能力（MR作为计算引擎，HDFS作为存储系统），Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。

3.适合做离线分析处理(OLAP)
Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。

4.延展性好
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

5.良好的容错性
某个数据节点出现问题HQL仍可完成执行。

6.统计管理
提供了统一的元数据管理

在这里插入图片描述

在这里插入图片描述

用户提交查询等任务给Driver。
驱动程序将Hql发送编译器，检查语法和生成查询计划。
编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。
编译器Compiler得到元数据信息，对任务进行编译，先将HiveQL转换为抽象语法树，然后将抽象语法树转换成查询块，将查询块转化为逻辑的查询计划，重写逻辑查询计划，将逻辑计划转化为物理的计划（MapReduce）, 最后选择最佳的策略。
将最终的计划提交给Driver。到此为止，查询解析和编译完成。
Driver将计划Plan转交给ExecutionEngine去执行。
在内部，执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker，在名称节点并把它分配作业到TaskTracker，这是在数据节点。在这里，查询执行MapReduce工作。

7.1 与此同时,在执行时,执行引擎可以通过Metastore执行元数据操作。
执行引擎接收来自数据节点的结果。
执行引擎发送这些结果值给驱动程序。
驱动程序将结果发送给Hive接口。