探索数据血缘的新纪元：Ushas，精准把握每一列的脉络

宫萍润

于 2024-09-12 08:18:08 发布

阅读量336

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00357/article/details/142160329

版权

探索数据血缘的新纪元：Ushas，精准把握每一列的脉络

ushas This project is used for tracking lineage when using spark. Our team is aimed at enhancing the ability of column relation during logical plan analysis. 项目地址: https://gitcode.com/gh_mirrors/us/ushas

在大数据领域，数据治理始终占据着核心地位，尤其是在复杂的数据流程中，精确的数据血缘追踪至关重要。Ushas，这款基于Spark构建的强大组件，正是为了解决这一痛点而来。它不仅仅是一个技术上的小修小补，而是向精准列级血缘追踪迈出的一大步，填补了传统数据治理在字段间依赖关系识别上的空白。

项目技术剖析

深入Spark的脏腑

Ushas巧妙地融入了Spark的两大关键模块——spark-sql-catalyst与spark-sql-hive，通过对这些核心部分的定制化增强，实现了对数据处理过程中逻辑计划的精细管控。特别是在对Dataset的处理上，它利用ofRows方法内嵌逻辑计划的处理，确保每一行代码都成为精准追踪的支撑点。更进一步，通过对抗性解析SQL的每一个字节，Ushas在Antlr4的帮助下，构建起从原始SQL到解析后的逻辑计划的桥梁，为后来的列级血缘分析奠定了坚实的基础。

智能分析引擎的构建

Ushas的核心创新在于其定制的Analyzer逻辑，借助Analyzer和一系列自定义规则，它能够穿越到表达式的深处，记录并分析每一个字段的来龙去脉。通过对原始LogicalPlan的扩展，引入列级解析的特性和逻辑，Ushas让每一步数据转换都变得可追溯，这一切无不建立在不影响Spark既有生态的前提下。