系列:用python+antlr解析hive sql获得数据血缘关系(一)

本文介绍了使用Python和ANTLR解析Hive SQL以获取数据血缘关系的过程,包括ANTLR版本选择、语法文件、编译与测试等步骤。作者探讨了不同解析工具的优缺点,最终选择了ANTLR作为主要工具,并使用pyjnius作为Python与Java的桥梁。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

工作刚开始,边学边记,预计不止两篇三篇的,先提个系列

系列目标

编程获得数据血缘关系的需求对数据仓库来说并不普遍,只有数据规模达到很大的程度,或者存在复杂数据生产关系的报表数量增加到很大的程度,单独的数据血缘关系工作才有必要。
在规模没达到之前,人工的识别和管理是更经济有效的。

本系列想要做到的目标是这个uber的 queryparser的一个子集,在有限知道目标数据表结构的前提下,发现并记录目标字段与来源表和字段的关系。

这种功能queryparser应该是已经具备的,并且它本身是开源的,但queryparser的主体是Haskell写的,为这么一个边缘功能学门新的编程范式,学习代价太大了点。

还是选择python作为开发工具比较靠谱。

可选项比较

自己从头写字符串处理是不可能的,就算是用正则辅助,搞那些语法边角的工作量也难以估计。

于是祭出搜索大法,在各处寻摸一遍后,拿到了这么几个可能的选择项:

queryparser

就是前面说的uber放出的开源项目,因为编程语言的壁垒,最早放弃。

sqlparse

pypi上可以搜索到的模块,github地址 https://github.com/andialbrecht/sqlparse
网上也有一些材料,

拿来做了简单试验后,放弃。

放弃主要原因是因为它的功能集合相比要做的hive sql解析,感觉太小了。sqlparse从sql语句解析出来的是 statements tuple,每个statement上会有一个识别出的类型,而在我要解析的sql集合里,大概有三分之一sql语句,识别出的statement类型是UNKNOWN,这个比例太大不能接受。

pyparsing

也是pypi上可以搜索到的模块,github地址https://github.com/pyparsing/pyparsing/ 这是python版本的通用解析工具。

如果有人基于这个pyparsing做过hive sql解析就好了,然而没有。如果要用pyparsing,就要从头写语法文件。python项目用它做表达式解析,或者做新配置语法还好,用来解析hive sql这种量级的,工作量也太大,放弃。

antlr

在找到pyparsing时我已经同时在找antlr相关信息了,因为要解析hive sql,最权威的解析器肯定是hive自己用的那个,经过确认,这个工具就是antlr,更具体的说,是antlr 3系列。

antlr自己的历史不是本系列重点,感兴趣的可以自行到https://www.antlr.org/上去查阅

grammar文件

要用hive自身的解析,就要拿到hive的语法文件定义,对于开源的hive来说,这个事还是挺容易的,github上可以很容易按版本访问到历史文件,以hive 1.1.0版本的文件为例,语法文件定义所在的文件夹是
https://github.com/apache/hive/tree/release-1.1.0/ql/src/java/org/apache/hadoop/hive/ql/parse

网上也提到过,hive的语法文件经历过分拆,在1.1.0版本中,一共有5个文件,都是.g后缀名,分别是

把它们从github上下载回来,或者从页面上复制粘贴到编辑器里,再保存为对应名字的文本文件也可以,主要文件名要严格一样,antlr对文件名和语法文件内容有检查。

antlr版本

antlr有 v2 v3 v4多个版本并存,中文文档多数是v2的, hive 1.1.0版本在注释中提到了antlr 3.4,最新的3.x版本是3.5.2&#x

智能网联汽车的安全员高级考试涉及多个方面的专业知识,包括但不限于自动驾驶技术原理、车辆传感器融合、网络安全防护以及法律法规等内容。以下是针对该主题的一些核心知识解析: ### 关于智能网联车安全员高级考试的核心内容 #### 1. 自动驾驶分级标准 国际自动机工程师学会(SAE International)定义了六个级别的自动驾驶等级,从L0到L5[^1]。其中,L3及以上级别需要安全员具备更高的应急处理能力。 #### 2. 车辆感知系统的组成与功能 智能网联车通常配备多种传感器,如激光雷达、毫米波雷达、摄像头和超声波传感器等。这些设备协同工作以实现环境感知、障碍物检测等功能[^2]。 #### 3. 数据通信与网络安全 智能网联车依赖V2X(Vehicle-to-Everything)技术进行数据交换,在此过程中需防范潜在的网络攻击风险,例如中间人攻击或恶意软件入侵[^3]。 #### 4. 法律法规要求 不同国家和地区对于无人驾驶测试及运营有着严格的规定,考生应熟悉当地交通法典中有关自动化驾驶部分的具体条款[^4]。 ```python # 示例代码:模拟简单决策逻辑 def decide_action(sensor_data): if sensor_data['obstacle'] and not sensor_data['emergency']: return 'slow_down' elif sensor_data['pedestrian_crossing']: return 'stop_and_yield' else: return 'continue_driving' example_input = {'obstacle': True, 'emergency': False, 'pedestrian_crossing': False} action = decide_action(example_input) print(f"Action to take: {action}") ``` 需要注意的是,“同学”作为特定平台上的学习资源名称,并不提供官方认证的标准答案集;建议通过正规渠道获取教材并参加培训课程来准备此类资格认证考试
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值