工作刚开始,边学边记,预计不止两篇三篇的,先提个系列
系列目标
编程获得数据血缘关系的需求对数据仓库来说并不普遍,只有数据规模达到很大的程度,或者存在复杂数据生产关系的报表数量增加到很大的程度,单独的数据血缘关系工作才有必要。
在规模没达到之前,人工的识别和管理是更经济有效的。
本系列想要做到的目标是这个uber的 queryparser的一个子集,在有限知道目标数据表结构的前提下,发现并记录目标字段与来源表和字段的关系。
这种功能queryparser应该是已经具备的,并且它本身是开源的,但queryparser的主体是Haskell写的,为这么一个边缘功能学门新的编程范式,学习代价太大了点。
还是选择python作为开发工具比较靠谱。
可选项比较
自己从头写字符串处理是不可能的,就算是用正则辅助,搞那些语法边角的工作量也难以估计。
于是祭出搜索大法,在各处寻摸一遍后,拿到了这么几个可能的选择项:
queryparser
就是前面说的uber放出的开源项目,因为编程语言的壁垒,最早放弃。
sqlparse
pypi上可以搜索到的模块,github地址 https://github.com/andialbrecht/sqlparse
网上也有一些材料,
拿来做了简单试验后,放弃。
放弃主要原因是因为它的功能集合相比要做的hive sql解析,感觉太小了。sqlparse从sql语句解析出来的是 statements tuple,每个statement上会有一个识别出的类型,而在我要解析的sql集合里,大概有三分之一sql语句,识别出的statement类型是UNKNOWN,这个比例太大不能接受。
pyparsing
也是pypi上可以搜索到的模块,github地址https://github.com/pyparsing/pyparsing/ 这是python版本的通用解析工具。
如果有人基于这个pyparsing做过hive sql解析就好了,然而没有。如果要用pyparsing,就要从头写语法文件。python项目用它做表达式解析,或者做新配置语法还好,用来解析hive sql这种量级的,工作量也太大,放弃。
antlr
在找到pyparsing时我已经同时在找antlr相关信息了,因为要解析hive sql,最权威的解析器肯定是hive自己用的那个,经过确认,这个工具就是antlr,更具体的说,是antlr 3系列。
antlr自己的历史不是本系列重点,感兴趣的可以自行到https://www.antlr.org/上去查阅
grammar文件
要用hive自身的解析,就要拿到hive的语法文件定义,对于开源的hive来说,这个事还是挺容易的,github上可以很容易按版本访问到历史文件,以hive 1.1.0版本的文件为例,语法文件定义所在的文件夹是
https://github.com/apache/hive/tree/release-1.1.0/ql/src/java/org/apache/hadoop/hive/ql/parse
网上也提到过,hive的语法文件经历过分拆,在1.1.0版本中,一共有5个文件,都是.g后缀名,分别是
把它们从github上下载回来,或者从页面上复制粘贴到编辑器里,再保存为对应名字的文本文件也可以,主要文件名要严格一样,antlr对文件名和语法文件内容有检查。
antlr版本
antlr有 v2 v3 v4多个版本并存,中文文档多数是v2的, hive 1.1.0版本在注释中提到了antlr 3.4,最新的3.x版本是3.5.2&#x