HIVE详解（一）：基本概念

最新推荐文章于 2024-03-26 14:37:37 发布

深圳摆地摊er

最新推荐文章于 2024-03-26 14:37:37 发布

阅读量1.4k

点赞数

分类专栏： hive 文章标签： hive

本文链接：https://blog.csdn.net/helloemk/article/details/84812548

版权

hive 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

什么是hive
hive是由Facebook开源用于解决海量结构化日志的数据统计；
hive是基于hadoop的一个数据仓库工具，将结构化的数据文件映射为一张表，并提供类SQL查询功能；
hive的本质是将hiveQL语句转化成MR程序；
hive处理的数据存储在HDFS，hive分析数据底层实现是MR，执行程序运行在Yarn上。
hive的优缺点

2.1优点：

1）操作接口采用类 SQL 语法，提供快速开发的能力（简单、容易上手）；
2）避免了去写 MapReduce，减少开发人员的学习成本；
3）Hive 的执行延迟比较高，常进行大数据分析，并对延时要求不高的工作；
4）Hive 支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

2.2缺点：

1）Hive 的 HQL 表达能力有限，有些复杂运算无法表达（如迭代算法）
2）Hive 的效率比较低，只能做高延时的数据分析
3）hive粒度较粗，调优比较困难
架构原理

运行流程：Hive 通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用
自己的 Driver，结合元数据(MetaStore)，将这些指令翻译成 MapReduce，提交到 Hadoop 中
执行，最后，将执行返回的结果输出到用户交互接口。
Hive的根基是Hadoop的MapReduce，hive组件包括两类：

3.1服务端组件

1）driver：该组件包括解析器，编译器，优化器，执行器
解析器(SQL Parser)：将SQL字符串转换成抽象语法数AST，这一步一般都用第三方库完成（如antlr），然后对AST进行语法分析，比如表和字段是否存在，SQL语义是否存在错误；
编译器(Physical Plan)：将AST编译生成逻辑执行计划；
优化器(Query Optimizer)：对逻辑执行计划进行优化；
执行器(Execution)：把逻辑执行计划转换成可以执行的物理计划（比如MR，Spark任务）。
2）Metastore：元数据服务组件用来存储hive的元数据，元数据包括表名、表所属的数据库(默认是default)、表的拥有着、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等；
3）Thrift服务：能让不同的编程语言调用hive的接口。

3.2客户端组件

1）CLI: Command Line Inteface,命令行接口
2）Thrift客户端：hive架构的许多客户端接口都是建立在Thrift客户端之上，包括JDBC/ODBC;
3）WebGUI：hive客户端提供的通过网页访问hive所提供的服务，这个接口对应hive的HWI组件(Hive Web Inteface),使用前要启动HWI服务。
hive与数据库的比较
hive除了和数据库拥有类似的查询语言，再无类似之处。hive是为数据仓库而设计的。
1）数据存储位置：hive是建立在hadoop上的，hive的数据都是存储在HDFS中的。
2）数据更新：hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少的，因此hive不支持对数据的改写和添加，所有的数据都是在加载的时候确定好的。
3）索引：hive在加载数据的过程中不会对数据进行任何处理和扫描，因此也没有对数据中的某些key建立索引。hive要访问数据中满足条件的特定值时，需要暴力扫描整个数据，因此访问延迟较高。由于hive基于MR，hive可以并行访问数据，因此即使没有索引，对于大数据量的访问，hive仍然可以体现出有时。
4）执行：hive大多数查询的执行是通过MR实现的。
5）可扩展性：由于hive建立在hadoop上，因此hive的可扩展性是和hadoop的可扩展性一致。
6）数据规模：hive支持大规模的数据，远远超过数据库。

深圳摆地摊er

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
HIVE详解（一）：基本概念

基本概念什么是hivehive是由Facebook开源用于解决海量结构化日志的数据统计；hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能；hive的本质是将hiveQL语句转化成MR程序；hive处理的数据存储在HDFS，hive分析数据底层实现是MR，执行程序运行在Yarn上。hive的优缺点2.1优点：1）操作接口...
复制链接

扫一扫