第一天:Hive是什么,Hive的体系结构,hive和hadoop的关系
MapReduce是解决hive解决不了的问题
简单的hive能解决的问题,不需要mapReduce
做报表一般使用Hive来做的。
Hive是什么?
Hive是简历在Hadoop上的数据仓库基础架构,他提供了一些列的工具
,可以用来进行数据提取转换加载(ETL),这是一种可以存储
,查询和分析存储在Hadoop中的大规模数据的机制,
Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户
查询数据,同时,这个语言也语序熟悉MapReduce开发者的开发自定义的Mapper
和reducer来处理内奸的mapper和reducer无法完成的复杂分析工作
Hive的体系结构可以分为一下几个部分:
对
Driver(Complier,Optimizer,Executor)
Metastore
JDBC ODBC
hive可以把元数据存放在mysql中
用户接口主要有三个:CLI,Client和WUI,其中最常用的是
CLI,CLI启动的时候,会同事启动一个hive副本,Client是hive的客户端
用户连接值hiveserver,在启动client模式的时候,
需要之处hiveserver所在的节点,并且在该节点启动hiveserver,WUI是通过浏览器
访问hive
hive将元数据存储在数据库中,如果mysql derby,hive中的元数据
包括表的名字,表的列和分区及其属性,
表的属性(是否为外部表等),表的数据所在目录等等。
解释器,编译器,优化器,完成haql查询语句从词法分析,语法分析
,编译,优化以及查询计划的生成,生成的查询计划存储
在hdfs中,并在随后有mapReduce调用执行
hive的数据存储在hdfs中,大部分的查询有mapReduce完成
(包含*的查询比如。。。。不会生成mapreduce任务)。
MapReduce是解决hive解决不了的问题
简单的hive能解决的问题,不需要mapReduce
做报表一般使用Hive来做的。
Hive是什么?
Hive是简历在Hadoop上的数据仓库基础架构,他提供了一些列的工具
,可以用来进行数据提取转换加载(ETL),这是一种可以存储
,查询和分析存储在Hadoop中的大规模数据的机制,
Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户
查询数据,同时,这个语言也语序熟悉MapReduce开发者的开发自定义的Mapper
和reducer来处理内奸的mapper和reducer无法完成的复杂分析工作
Hive的体系结构可以分为一下几个部分:
对
Driver(Complier,Optimizer,Executor)
Metastore
JDBC ODBC
hive可以把元数据存放在mysql中
用户接口主要有三个:CLI,Client和WUI,其中最常用的是
CLI,CLI启动的时候,会同事启动一个hive副本,Client是hive的客户端
用户连接值hiveserver,在启动client模式的时候,
需要之处hiveserver所在的节点,并且在该节点启动hiveserver,WUI是通过浏览器
访问hive
hive将元数据存储在数据库中,如果mysql derby,hive中的元数据
包括表的名字,表的列和分区及其属性,
表的属性(是否为外部表等),表的数据所在目录等等。
解释器,编译器,优化器,完成haql查询语句从词法分析,语法分析
,编译,优化以及查询计划的生成,生成的查询计划存储
在hdfs中,并在随后有mapReduce调用执行
hive的数据存储在hdfs中,大部分的查询有mapReduce完成
(包含*的查询比如。。。。不会生成mapreduce任务)。