Hive知识点

Hive主要由以下3个模块组成:用户接口模块,驱动模块以及元数据模块。

用户接口模块包括CLI客户端,Beeline客户端(3.0版本)、Hive网页接口(Hive Web Interface)、JDBC、ODBC、Thrift Server等,用来实现外部对Hive的访问。

其中,Thrift Server基于Thrift软件框架开发,它提供Hive的RPC通信接口。

驱动模块(Driver)包括编译器,优化器,执行器等,所采用的执行引擎可以是MapReduct、Tez、Spark等。

元数据存储模块中主要保存表模式和其他系统元数据,如表的名称,表的列及其属性,表的分区及其属性,表的属性,表中数据所在位置信息等。

Hive工作原理:

1) 用MapReduce实现连接操作

2)用MapReduce实现分组操作

SQL查询转换成MapReduce作业的过程:

1)由Hive驱动模块中的编译器-----Antlr语言识别工具,对用户输入的SQL进行词法和语法解析,将SQL语句转化为抽象语法树(Abstract Syntax Tree, AST)的形式

2)对该抽象语法树进行遍历,进一步转化成查询块(QueryBlock)。因为抽象语法树的结构仍然很复杂,不方便直接翻译为MapReduce算法程序,所以,Hive把抽象语法树进一步转化为查询块。查询块是一个最基本的SQL语法组成单元,包括输入源,计算过程和输出3个部分。

3)再对查询块进行遍历,生成操作树(OperatorTree)。其中,操作树由很多逻辑操作符组成,如TableScanOperator、SelectOperator、FilterOperator、JoinOperator、GroupByOperator和ReduceSinkOperator等。这些逻辑操作符可以在Map阶段和Reduce阶段完成某一特定操作。

4)通过Hive驱动模块中的逻辑优化器对操作树进行优化,变换操作树的形式,合并多余的操作符,从而减少MapReduce作业数量以及Shuffle阶段的数据量

5)对优化后的操作树进行遍历,根据操作树中的逻辑操作符生成需要执行的MapReduce作业

6)启动Hive驱动模块中的物理优化器,对生成的MapReduce作业进行优化,生成最终的MapReduce作业执行计划

7)最后由Hive驱动模块中的执行器,对最终的MapReduce作业进行执行输出。

Hive HA

在Hive HA中,在Hadoop集群上构建的数据仓库是由多个Hive实例进行管理的,这些Hive实例被纳入到一个资源池中,并有HAProxy提供一个统一的对外接口。客户端的查询请求首先访问HAProxy,由HAProxy对访问请求进行转发。HAProxy收到请求后,会轮询资源池里可用的Hive实例,执行逻辑可用性测试。如果某个Hive实例逻辑可用,就会把客户端的访问请求转发到该Hive实例上,如果该Hive实例逻辑不可用,就把它放入黑名单,并继续从资源池中取出下一个Hive实例进行逻辑可用性测试。

Hive语句执行顺序:

这是一条sql:

select … from … where … group by … having … order by … 

执行顺序:

from … where … select … group by … having … order by …

其实总结hive的执行顺序也是总结mapreduce的执行顺序:

MR程序的执行顺序:

map阶段:

 1.执行from加载,进行表的查找与加载

2.执行where过滤,进行条件过滤与筛选

3.执行select查询:进行输出项的筛选

4.执行group by分组:描述了分组后需要计算的函数

5.map端文件合并:map端本地溢出写文件的合并操作,每个map最终形成一个临时文件。 然后按列映射到对应的reduceReduce阶段:

Reduce阶段:

1.group by:对map端发送过来的数据进行分组并进行计算。

2.select:最后过滤列用于输出结果

3.limit排序后进行结果输出到HDFS文件

所以通过上面的例子我们可以看到,在进行selectt之后我们会形成一张表,在这张表当中做分组排序这些操作。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值