DataHub如何集成spark?
DataHub通过如下方式集成spark:
- 提供了一个轻量级的Java代理,它侦听Spark应用程序和作业事件,并实时将数据血缘元数据推送到DataHub
- Java代理侦听应用程序的开始、结束事件、SQLExecution的开始、结束事件,以在Datahub中创建pipelines (即DataFlow)和任务(即DataJob),以及对正在读写的数据集间的数据血缘关系。
如下面的代码(源码参见:TestSparkJobsLineage.java
spark = SparkSession.builder()
.appName(APP_NAME)