Hive一（hive初识）

最新推荐文章于 2024-08-28 23:02:02 发布

涛之博

最新推荐文章于 2024-08-28 23:02:02 发布

阅读量210

点赞数

分类专栏： hadoop 文章标签： hive

本文链接：https://blog.csdn.net/qq_33624952/article/details/79275809

版权

hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、Hive简介

    Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件 映射为
一张数据库表，并提供类 SQL 查询功能。

本质是将 L SQL  转换为 e MapReduce 程序。

主要用途：用来做离线数据分析，比直接用 MapReduce 开发效率更高。

二.、HIve架构

1.架构图
这里写图片描述
2.hive组件

    用户接口：包括 CLI、JDBC/ODBC、WebGUI。其中，CLI(command line
interface)为 shell 命令行；JDBC/ODBC 是 Hive 的 JAVA 实现，与传统数据库
JDBC 类似；WebGUI 是通过浏览器访问 Hive。

    元数据存储：通常是存储在关系数据库如 mysql/derby 中。Hive 将元数据
存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表
的属性（是否为外部表等），表的数据所在目录等。

    解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分
析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随
后有 MapReduce 调用执行。

3.hive和传统数据库比较图

对比图

三、hive数据模型

    Hive 中所有的数据都存储在 HDFS 中，没有专门的数据存储格式
在创建表时指定数据中的分隔符，Hive 就可以映射成功，解析数据。

Hive 中包含以下数据模型：

db ：在 hdfs 中表现为 hive.metastore.warehouse.dir 目录下一个文件夹

table ：在 hdfs 中表现所属 db 目录下一个文件夹

external table ：数据存放位置可以在 HDFS 任意指定路径

partition ：在 hdfs 中表现为 table 目录下的子目录

bucket ：在 hdfs 中表现为同一个表目录下根据 hash 散列之后的多个文件

涛之博

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive一（hive初识）

一、Hive简介 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类 SQL 查询功能。本质是将 L SQL 转换为 e MapReduce 程序。主要用途：用来做离线数据分析，比直接用 MapReduce 开发效率更高。二.、HIve架构1.架构图 2.hive组件用户接口：包括 CLI、...
复制链接

扫一扫

专栏目录