spark-sql字段级血缘关系实现

Chocolate？

已于 2022-07-01 17:52:00 修改

阅读量5k

点赞数 3

CC 4.0 BY-SA版权

文章标签：大数据 spark

于 2022-07-01 17:40:13 首次发布

本文链接：https://blog.csdn.net/chocolate4/article/details/125561129

本文介绍了如何在Spark SQL中实现字段级血缘关系，通过QueryExecutionListener监听并解析SparkPlan获取血缘信息，然后将这些信息导入Neo4j进行可视化展示。在解析过程中，从sql经过ANTLR4解析生成AST，再转化为LogicalPlan和PhysicalPlan，最后通过PhysicalPlan获取表和字段的详细信息，建立字段间的关系，并在执行时通过特定配置启用监听器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.背景：

血缘关系非常重要，因为有了字段间的血缘关系，便可以知道数据的来源去处，以及字段之间的转换关系，这样对数据的质量，治理有很大的帮助。

Spark SQL 相对于 Hive 来说通常情况下效率会比较高，对于运行时间、资源的使用上面等都会有较大的收益。所以考虑将采用MapReduce引擎执行的sql进行迭代，以spark引擎执行。但同时也需要实现字段血缘的功能。hive血缘关系实现较为简单，攻略也比较多，这spark血缘关系攻略较少，这里提供一种解析思路。

2.需求：

在使用spark引擎执行sql时，将表与表，字段与字段的血缘信息解析出来，可视化展示。

3.思路：

使用QueryExecutionListener对spark进行监听，读取出sparkplan(物理计划)，解析其中包含的血缘关系，将血缘关系导入neo4j，spring-boot写接口，前端请求返回表的血缘关系。

4.实现：

QueryExecutionListener：监听和用于分析spark-sql执行过程中的的一些指标

The interface of query execution listener that can be used to analyze execution metrics.

trait QueryExecutionListener {
  @DeveloperApi
  def onSuccess(funcName: String, qe: QueryExecution, durationNs: Long): Unit

  @DeveloperApi
  def onFailure(funcName: String, qe: QueryExecution, exception: Exception): Unit
}

class SparkListenerTest extends QueryExecutionListener{

  override def onFailure(funcName: String, qe: QueryExecution, exception: Exception): Unit = {

  }

  override def onSuccess(funcName: String, qe: QueryExecution, durationNs: Long): Unit = {
    val sparkPlanJson: String = qe.sparkPlan.prettyJson

  }
}

了解一下整个sql在spark中的解析过程

sql —(ANTLR4) —> AST —(Spark AstBuilder) —> Unresolved LogicalPlan — (Catalog) —> Resolved LogicalPlan — (Optimizer) —> Optimized LogicalPlan — (SparkPlanner) —> PhysicalPlan(SparkPlan) —(prepareForExecution) —> ExecutionPlan(PhysicalPlan)