系列：用python+antlr解析hive sql获得数据血缘关系（一）

最新推荐文章于 2024-07-26 18:00:00 发布

傲慢程序员

最新推荐文章于 2024-07-26 18:00:00 发布

阅读量7.3k

点赞数 5

分类专栏： python antlr与python 文章标签： sql hadoop python 大数据数据挖掘

本文链接：https://blog.csdn.net/bigdataolddriver/article/details/103826702

版权

本文介绍了使用Python和ANTLR解析Hive SQL以获取数据血缘关系的过程，包括ANTLR版本选择、语法文件、编译与测试等步骤。作者探讨了不同解析工具的优缺点，最终选择了ANTLR作为主要工具，并使用pyjnius作为Python与Java的桥梁。

摘要由CSDN通过智能技术生成

工作刚开始，边学边记，预计不止两篇三篇的，先提个系列

系列目标

编程获得数据血缘关系的需求对数据仓库来说并不普遍，只有数据规模达到很大的程度，或者存在复杂数据生产关系的报表数量增加到很大的程度，单独的数据血缘关系工作才有必要。
在规模没达到之前，人工的识别和管理是更经济有效的。

本系列想要做到的目标是这个uber的 queryparser的一个子集，在有限知道目标数据表结构的前提下，发现并记录目标字段与来源表和字段的关系。

这种功能queryparser应该是已经具备的，并且它本身是开源的，但queryparser的主体是Haskell写的，为这么一个边缘功能学门新的编程范式，学习代价太大了点。

还是选择python作为开发工具比较靠谱。

可选项比较

自己从头写字符串处理是不可能的，就算是用正则辅助，搞那些语法边角的工作量也难以估计。

于是祭出搜索大法，在各处寻摸一遍后，拿到了这么几个可能的选择项：

queryparser

就是前面说的uber放出的开源项目，因为编程语言的壁垒，最早放弃。

sqlparse

pypi上可以搜索到的模块，github地址 https://github.com/andialbrecht/sqlparse
网上也有一些材料，

拿来做了简单试验后，放弃。

放弃主要原因是因为它的功能集合相比要做的hive sql解析，感觉太小了。sqlparse从sql语句解析出来的是 statements tuple，每个statement上会有一个识别出的类型，而在我要解析的sql集合里，大概有三分之一sql语句，识别出的statement类型是UNKNOWN，这个比例太大不能接受。

pyparsing

也是pypi上可以搜索到的模块，github地址https://github.com/pyparsing/pyparsing/ 这是python版本的通用解析工具。

如果有人基于这个pyparsing做过hive sql解析就好了，然而没有。如果要用pyparsing，就要从头写语法文件。python项目用它做表达式解析，或者做新配置语法还好，用来解析hive sql这种量级的，工作量也太大，放弃。

antlr

在找到pyparsing时我已经同时在找antlr相关信息了，因为要解析hive sql，最权威的解析器肯定是hive自己用的那个，经过确认，这个工具就是antlr，更具体的说，是antlr 3系列。

antlr自己的历史不是本系列重点，感兴趣的可以自行到https://www.antlr.org/上去查阅

grammar文件

要用hive自身的解析，就要拿到hive的语法文件定义，对于开源的hive来说，这个事还是挺容易的，github上可以很容易按版本访问到历史文件，以hive 1.1.0版本的文件为例，语法文件定义所在的文件夹是
https://github.com/apache/hive/tree/release-1.1.0/ql/src/java/org/apache/hadoop/hive/ql/parse

网上也提到过，hive的语法文件经历过分拆，在1.1.0版本中，一共有5个文件，都是.g后缀名，分别是

把它们从github上下载回来，或者从页面上复制粘贴到编辑器里，再保存为对应名字的文本文件也可以，主要文件名要严格一样，antlr对文件名和语法文件内容有检查。