系列:用python+antlr解析hive sql获得数据血缘关系(一)

本文介绍了使用Python和ANTLR解析Hive SQL以获取数据血缘关系的过程,包括ANTLR版本选择、语法文件、编译与测试等步骤。作者探讨了不同解析工具的优缺点,最终选择了ANTLR作为主要工具,并使用pyjnius作为Python与Java的桥梁。
摘要由CSDN通过智能技术生成

工作刚开始,边学边记,预计不止两篇三篇的,先提个系列

系列目标

编程获得数据血缘关系的需求对数据仓库来说并不普遍,只有数据规模达到很大的程度,或者存在复杂数据生产关系的报表数量增加到很大的程度,单独的数据血缘关系工作才有必要。
在规模没达到之前,人工的识别和管理是更经济有效的。

本系列想要做到的目标是这个uber的 queryparser的一个子集,在有限知道目标数据表结构的前提下,发现并记录目标字段与来源表和字段的关系。

这种功能queryparser应该是已经具备的,并且它本身是开源的,但queryparser的主体是Haskell写的,为这么一个边缘功能学门新的编程范式,学习代价太大了点。

还是选择python作为开发工具比较靠谱。

可选项比较

自己从头写字符串处理是不可能的,就算是用正则辅助,搞那些语法边角的工作量也难以估计。

于是祭出搜索大法,在各处寻摸一遍后,拿到了这么几个可能的选择项:

queryparser

就是前面说的uber放出的开源项目,因为编程语言的壁垒,最早放弃。

sqlparse

pypi上可以搜索到的模块,github地址 https://github.com/andialbrecht/sqlparse
网上也有一些材料,

拿来做了简单试验后,放弃。

放弃主要原因是因为它的功能集合相比要做的hive sql解析,感觉太小了。sqlparse从sql语句解析出来的是 statements tuple,每个statement上会有一个识别出的类型,而在我要解析的sql集合里,大概有三分之一sql语句,识别出的statement类型是UNKNOWN,这个比例太大不能接受。

pyparsing

也是pypi上可以搜索到的模块,github地址https://github.com/pyparsing/pyparsing/ 这是python版本的通用解析工具。

如果有人基于这个pyparsing做过hive sql解析就好了,然而没有。如果要用pyparsing,就要从头写语法文件。python项目用它做表达式解析,或者做新配置语法还好,用来解析hive sql这种量级的,工作量也太大,放弃。

antlr

在找到pyparsing时我已经同时在找antlr相关信息了,因为要解析hive sql,最权威的解析器肯定是hive自己用的那个,经过确认,这个工具就是antlr,更具体的说,是antlr 3系列。

antlr自己的历史不是本系列重点,感兴趣的可以自行到https://www.antlr.org/上去查阅

grammar文件

要用hive自身的解析,就要拿到hive的语法文件定义,对于开源的hive来说,这个事还是挺容易的,github上可以很容易按版本访问到历史文件,以hive 1.1.0版本的文件为例,语法文件定义所在的文件夹是
https://github.com/apache/hive/tree/release-1.1.0/ql/src/java/org/apache/hadoop/hive/ql/parse

网上也提到过,hive的语法文件经历过分拆,在1.1.0版本中,一共有5个文件,都是.g后缀名,分别是

把它们从github上下载回来,或者从页面上复制粘贴到编辑器里,再保存为对应名字的文本文件也可以,主要文件名要严格一样,antlr对文件名和语法文件内容有检查。

antlr版本

antlr有 v2 v3 v4多个版本并存,中文文档多数是v2的, hive 1.1.0版本在注释中提到了antlr 3.4,最新的3.x版本是3.5.2&#x

  • 5
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值