beeline 将查询的数据导出来_hive中beeline取回数据的完整流程

最新推荐文章于 2024-07-24 19:42:47 发布

白砚衍

最新推荐文章于 2024-07-24 19:42:47 发布

阅读量1.1k

点赞数

文章标签： beeline 将查询的数据导出来

本文链接：https://blog.csdn.net/weixin_31209173/article/details/113016251

版权

本文详细解析了BeeLine如何执行HQL查询并导出数据的过程，包括BeeLine.execute、dispatch和Commands.execute等关键步骤，以及HiveStatement、HiveQueryResultSet和BufferedRows的使用。在数据获取过程中，客户端通过TCLIService.thrift协议与服务端交互，执行OpenSession、FetchResults、CloseOperation等操作，确保数据完整获取。

摘要由CSDN通过智能技术生成

这里我们从BeeLine.execute讲起。

接下来来到BeeLine.dispatch,这里的入参就是sql语句。方法的最后调用了Commands.sql,然后调用到了Commands.execute。

如下图所示,这里是Commands.execute中的关键逻辑。

1.调用BeeLine.createStatement,该方法间接调用了HiveConnection.createStatement。在后面的方法中构建了HiveStatement。

2.调用了Commands.createLogRunnable,在该方法中循环调用HiveStatement.hasMoreLogs。并且将方法HiveStatement.getQueryLog中获取到的数据使用BeeLine.info输出到控制台。该方法封装为Runnable然后返回，后面使用线程封装并调用。

3.调用HiveStatement.execute,该方法首先调用closeClientOperation与initFlags重置了部分成员变量，以便下一次调用。

4.然后调用Client.ExecuteStatement,获取返回的operationHandle,并为下一次调用做准备。

5.遍历调用Client.GetOperationStatus,直到获取的状态为CLOSED_STATE或FINISHED_STATE,此时就可以将变量operationComplete置为true,跳出循环。

6.构造结果集HiveQueryResultSet并返回。在构造期间我们需要注意这里会调用到HiveQueryResultSet.retrieveSchema。这里间接调用了Client.GetResultSetMetadata。

7.后面调用了showRemainingLogsIfAny,该方法间接调用到了HiveStatement.getQueryLog,该方法内部就调用了Client.FetchResults。

这里有一个令人疑惑的地方—