hiveql的执行过程

最新推荐文章于 2024-08-01 08:58:50 发布

lance_123

最新推荐文章于 2024-08-01 08:58:50 发布

阅读量3.3k

点赞数

分类专栏： hadoop 文章标签： hadoop 数据库 sql mapreduce command 优化

本文链接：https://blog.csdn.net/lance_123/article/details/5947412

版权

hadoop 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

周末花了点时间，结合以前看的，大体看了一下 Hive 源码，主要包括客户 / 服务器通信，语法解析器，语义分析器，逻辑计划生成器，计划优化器，物理计划生成器，物理计划执行器等部分。分别由包 parse,plan, optimizer, Exec 中的代码来实现的。

Hive 是将 SQL 语句转换成 hadoop 的 MapReduce 程序，通常在客户端执行 hive 命令，然后输入 SQL 语句后， hive 将 SQL 语句生成多个 MR 的 job ，然后将这些 job 提交给 hadoop 进行执行，完成后，再把结果放入到 hdfs 或者本地的临时文件中。 Hive 中的表结构信息都是保存在关系型数据库中，如 mysql,derby 等，可以通过 hive-site.xml 中配置数据库的 URL, 用户名，密码等。而表的实际数据内容保存在 hadoop 的 hdfs 文件中，行和列数据分别用特殊字符串分格开，以便能够读取数据，默认是用 ctrl+a 和 /n 来分隔。

客户 / 服务器通信：由 org.apache.hadoop.hive.ql 包中的 Driver 类来完成，该类主要有一个 run(command) 方法，而该方法主要有二个方法组成：

int ret = compile(command); 此方法主要完成语法，语义，计划生成。

ret = execute(); 执行物理计划，即提交相应的 job 给 hadoop 进行执行。

执行完成后，会将执行结果通过 CommandProcessorResponse 类包装返回给客户端。

另外，在hive 中，提供本地直接运行hive 命令，也提交了jdbc 访问。具体实现分别在对应的包里。

语法分析器：将 sql 语句转换成一颗语法树，像编译原理书上讲的，其实就是一个普通树，只不过这颗保存了 sql 语句的结构，而 hive 是用 anltr 自动生成的语法树。分别由 org.apache.hadoop.hive.ql.parse 包中的HiveLexer 和HiveParser 完成词法和语法分析工作。