【大数据离线开发】8.1 Hive介绍和架构

最新推荐文章于 2024-04-28 05:29:18 发布

小卓仗剑走天涯

最新推荐文章于 2024-04-28 05:29:18 发布

阅读量476

点赞数 1

分类专栏：大数据从入门到精通文章标签： hive 大数据 hadoop

本文链接：https://blog.csdn.net/m0_66345324/article/details/129211922

版权

大数据从入门到精通专栏收录该内容

28 篇文章 1 订阅

订阅专栏

Hive是由Facebook创建并贡献给Apache的项目，它提供了一种使用SQL查询Hadoop上大数据的机制。HiveQL是其类SQL语言，可将SQL语句转换为MapReduce任务。Hive支持元数据存储、多种用户接口（CLI、JDBC/ODBC、WebUI）和数据存储在HDFS中，而在Hive2.x之后，推荐使用Spark作为执行引擎。此外，Hive的体系结构还包括解释器、编译器和优化器来处理HQL查询。

摘要由CSDN通过智能技术生成

Hive：数据分析引擎

了解

大数据的终极目标: 使用SQL语句来处理大数据

Hadoop的体系架构中:
- Hive:支持SOL
- Pig:支持PiqLatin
Spark的体系架构中:
- Spark SQL:类似Hive，支持SOL、支持DSL
另一个：Impala

8.1 什么是Hive？

起源自facebook由Jeff Hammerbacher领导的团队

2008年facebook把hive项目贡献给Apache

定义了一种类SQL语言HiveQL。可以看成是仍SQL到Map-Reduce的映射器

提供Hive shell、JDBC/ODBC、Thrift客户端等接

Hive是一个基于HDFS之上的数据仓库

Hive HDFS
表目录
数据文件
分区目录
桶文件
Hive基于Hadoop之上的一个数据分析引擎
- Hive是一个翻译器，把SQL语句翻译成一个MapReduce程序
- Hive 2.x 以前：SQL——HIve——MapReduce
- Hive 2.x 以后：推荐使用Spark作为SQL的执行引擎（只针对Hadoop 3.想以前）
- 常见的数据分析引擎：Hive、Pig、Impala、Spark SQL
Hive支持SQL的一个子集（SQL92的一个子集）

Hive	HDFS
表	目录
数据	文件
分区	目录
桶	文件

8.2 Apache Hive的体系结构

Hive 最核心的是它的翻译器，是它的核心驱动

在这里插入图片描述

用户接口主要有三个：CLI，JDBC/ODBC和 WebUI
- CLI，即Shell命令行
- JDBC/ODBC 是 Hive 的Java，与使用传统数据库JDBC的方式类似
- WebGUI是通过浏览器访问 Hive
Hive 将元数据存储在数据库中(metastore)，目前只支持 mysql、derby。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等
解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划（plan）的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行
Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成（包含 * 的查询，比如 select * from table 不会生成 MapRedcue 任务）

小卓仗剑走天涯

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【大数据离线开发】8.1 Hive介绍和架构

起源自facebook由Jeff Hammerbacher领导的团队2008年facebook把hive项目贡献给Apache定义了一种类SQL语言HiveQL。可以看成是仍SQL到Map-Reduce的映射器提供Hive shell、JDBC/ODBC、Thrift客户端等接Hive是一个基于HDFS之上的数据仓库HiveHDFS表目录数据文件分区目录桶文件Hive基于Hadoop之上的一个数据分析引擎Hive是一个翻译器，把SQL语句翻译成一个MapReduce程序。
复制链接

扫一扫

专栏目录