系列：用python+antlr解析hive sql获得数据血缘关系（二）

最新推荐文章于 2024-05-21 17:57:15 发布

傲慢程序员

最新推荐文章于 2024-05-21 17:57:15 发布

阅读量3.4k

点赞数

分类专栏： antlr与python 文章标签： python hive sql

本文链接：https://blog.csdn.net/bigdataolddriver/article/details/103867682

版权

本文介绍了如何使用ANTLR解析Hive SQL，详细讲述了从代码修订、编译到Python调用ANTLR生成的代码，以及解析过程中遇到的问题和限制。文章还探讨了ANTLR的parser grammar，并预告了后续将解决的解析问题。

摘要由CSDN通过智能技术生成

第一篇里初次跑通了HiveLexer.g, 接下来要尝试处理HiveParser.g

代码修订

为了适应代码目录，和HiveLexer.g类似，也需要对github上下载回来的HiveParser.g做一些处理。

如果直接下载hive的完整源码，并且保持目录结构，这个修改倒也可以省去。不过hive本身太大，而且主要的工作是希望用python做的，所以还是改一改更适合python些。

改动处HiveLexer.g略有区别，同样要改的是@header里的package名字。

 @header {                       
 package grammar.hive110;        
                                 
 import java.util.Collection;    
 import java.util.HashMap;       
 }

不同的是，@members里的内容要保留，源代码中本来有一对pushMsg和popMsg的方法，是hive工程内自行维护的状态堆栈，在每个parser rule里都调用了，正好可以借用一下。先只加一句System.out.println日志作为验证

   public void pushMsg(String msg, RecognizerSharedState state) {                    
     // ANTLR generated code does not wrap the @init code wit this backtracking check,                                                                                   
     //  even if the matching @after has it. If we have parser rules with that are doing                                                                                 
     // some lookahead with syntactic predicates this can cause the push() and pop() calls                                                                               
     // to become unbalanced, so make sure both push/pop check the backtracking state.                                                                                   
     System.out.println(msg);                                                        
     if (state.backtracking == 0) {                                                  
       msgs.push(msg);                                                               
     }                                                                               
   }

编译

基本语句还是第一篇里的，java和javac组合，输入文件有变化

java -jar antlr-3.4-complete.jar HiveParser.g 
javac -cp antlr-3.4-complete.jar HiveParser*.java ParseError.java

暂时还不知道什么情况，编译HiveParser.g时报出了大量的warning,类似下面这种。
查了一下，大致意思是多个规则能匹配到同一个输入，某些规则会不生效。同类warning上百个，处理不过来，也没有阻碍编译，就先搁置了。

As a result, alternative(s) 9 were disabled for that input
warning(200): IdentifiersParser.g:401:5:
Decision can match input such as "{KW_LIKE, KW_REGE

最低0.47元/天解锁文章

傲慢程序员

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
系列：用python+antlr解析hive sql获得数据血缘关系（二）

第一篇里初次跑通了HiveLexer.g, 接下来要尝试处理HiveParser.g代码修订为了适应代码目录，和HiveLexer.g类似，也需要对github上下载回来的HiveParser.g做一些处理。如果直接下载hive的完整源码，并且保持目录结构，这个修改倒也可以省去。不过hive本身太大，而且主要的工作是希望用python做的，所以还是改一改更适合python些。改动处Hive...
复制链接

扫一扫

专栏目录