Hive命令的执行过程

最新推荐文章于 2024-08-20 15:35:01 发布

SweeneyZuo

最新推荐文章于 2024-08-20 15:35:01 发布

阅读量3.1k

点赞数 1

分类专栏： Hive 文章标签： Hive

本文链接：https://blog.csdn.net/Sweeneyzuo/article/details/84720112

版权

Hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.入口/bin/cli.sh

调用CliDriver类进行初始化过程

>处理-e，-f， -h等信息，如果是-h,打印提示信息，并退出
>读取hive的配置文件，设置HiveConf
>创建一个控制台，进入交互模式

2.在交互方式下，读取每一个输命令行，直到‘；’为止，然后提交给processLine(cmd)方法处理，该方法将输入的流以；分割成多个命令，然后交给processCmd(cmd)方法。

3. ProcessCmd(cmd)对输入的命令行进行判断，根据命令的第一个记号(Token),分别进入相应的流程
>quit or exit系统正常退出
>!开头的命令行执行操作系统命令
>source开头的,读取外部文件并执行文件中的命令list列出jar file archive
>其他命令提交给Commandprocess，进行命令的预处理

4.命令的预处理CommandProcess

根据输入命令的第一个记号，分别进行处理

>set:调用SetProcess类， 设置hive的环境参数，并保存在该进程的HiveConf中
>dfs:调用DfsProcess类，调用hadoop的shell接口，执行hadoop的相关命令
>add:调用AddResourceProcessor，导入外部的资源，只对该进程有效
>delete:与add对应，删除资源
>其他:提交给Driver类，进行下一步的处理

5.命令的处理( Driver类的run方法)

    1、编译complie (Hive的核心部分)
>通过语言识别工具Antlr,验证语句的合法性
>将sql转换成一个抽象语法树(AST)
>定义树解释器Operator,将AST翻译成逻辑操作树
>调用genMapRed方法，生成物理执行计划
    2、获取读写锁
>对操作的表获取一个读写锁acquireReadWriteLocks
    3、执行execute
>将生成的Task提交hadoop API处理
>返回任务的执行时间和状态(成功 or 失败)

6.获取执行的结果

>任务执行失败，抛出异常
>执行成功后，调用Driver的GetReuslt方法， 顺序打开每一个输出文件
>获取每一行的输出，并打印到控制台

7.执行清理

>清理hive执行过程中的中间文件和临时文件
>退出该条命令的执行，返回控制台并等待下一条命令的输入

最后附上一张流程图

SweeneyZuo

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录