设置hive的执行引擎_Hive鲜为人知的宝石Hooks

最新推荐文章于 2024-08-01 08:58:44 发布

我喜欢你小朋友

最新推荐文章于 2024-08-01 08:58:44 发布

阅读量1.6k

点赞数 1

文章标签：设置hive的执行引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28914903/article/details/113490570

版权

本文介绍了Hive作为Hadoop的数据仓库工具，其执行引擎包括MapReduce、Tez和Spark。重点讲述了Hive Hooks的概念，它允许在查询处理的不同阶段插入自定义逻辑，如Pre-execution、Post-execution等。通过示例展示了如何创建和使用Hive Hook，强调了它们在扩展和集成Hive功能中的作用。

摘要由CSDN通过智能技术生成

1.hive概述

Hive为Hadoop提供了一个SQL接口。Hive可以被认为是一种编译器，它将SQL(严格来说，Hive查询语言 - HQL，SQL的一种变体)转换为一组Mapreduce / Tez / Spark作业。因此，Hive非常有助于非程序员使用Hadoop基础架构。原来，Hive只有一个引擎，即MapReduce。但是在最新版本中，Hive还支持Spark和Tez作为执行引擎。这使得Hive成为探索性数据分析的绝佳工具。

基于mapreduce的hive，整个架构图如下：

driver - 接收查询的组件。该组件实现了会话句柄的概念，并提供了在JDBC / ODBC接口上的执行和获取数据的api模型。

编译器 - 解析查询的组件，对不同的查询块和查询表达式进行语义分析，最终通过从metastore获取表和分区的信息生成执行计划。

Metastore - 存储仓库中各种表和分区的所有结构信息的组件，包括列和列类型信息，读取和写入数据所需的序列化程序和反序列化程序以及存储数据的相应HDFS文件。

执行引擎 - 执行编译器创建的执行计划的组件。该计划是一个stages的DAG。执行引擎管理计划的这些不同阶段之间的依赖关系，并在适当的系统组件上执行这些阶段。

2.什么是hook

通常，Hook是一种在处理过程中拦截事件，消息或函数调用的机制。Hive hooks是绑定到了Hive内部的工作机制，无需重新编译Hive。从这个意义上讲，提供了使用hive扩展和集成外部功能的能力。换句话说，Hive hadoop可用于在查询处理的各个步骤中运行/注入一些代码。根据钩子的类型，它可以在查询处理期间的不同点调用：

Pre-execution hooks-在执行引擎执行查询之前，将调用Pre-execution hooks。请注意，这个目的是此时已经为Hive准备了一个优化的查询计划。

Post-execution hooks -在查询执行完成之后以及将结果返回给用户之前，将调用Post-execution hooks 。

Failure-execution hooks -当查询执行失败时，将调用Failure-execution hooks 。

Pre-driver-run 和post-driver

最低0.47元/天解锁文章

我喜欢你小朋友

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。