第一节 hive简介

最新推荐文章于 2024-09-21 23:46:33 发布

张飞的猪

最新推荐文章于 2024-09-21 23:46:33 发布

阅读量390

点赞数 1

分类专栏： Hive基础与总结文章标签： hadoop hive 数据仓库 hive简介

本文链接：https://blog.csdn.net/lin_bingfeng/article/details/78072232

版权

Hive基础与总结专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1，什么是hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
hive是一个个构建在Hadoop HDFS上的数据仓库，是一一个数据仓库，本质上就是一个数据库hive是建立在HDFS的数据仓库基础架构（即数据存放在Hadoop HDFS上）
hive可以用来进行数据提取转化加载（ETL）。
hive定义了简单的类似SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据。
hive允许熟悉Map Reduce开发者开发自定义的mapper和reducer来处理内建的。mapper和reducer无法完成的复杂的分析工作。
hive是sql解析引擎，它将sql语句转换成M/R job，然后在Hadoop执行。
hive的表其实就是hdfs的目录/文件。

2，hive的体系结构是什么

hive体系结构图
Hive的体系结构可以分为以下几部分：
（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式的时候，需要指出Hive Server所在节点，并且在该节点启动Hive Server。 WUI是通过浏览器访问Hive。
（2）Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
（3）解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。
（4）Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成（包含的查询，比如select from tbl不会生成MapRedcue任务）。
Hive将元数据存储在RDBMS中，