spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具(第2部分)

spline

spline

第1部分中,我们学习了如何使用以下方法测试数据沿袭信息收集Spark外壳中的花键。 在任何Scala或Java Spark应用程序中都可以这样做。 需要在您选择的构建工具(Maven,Gradle或sbt)中注册与Spark shell相同的依赖项:

groupId: za.co.absa.spline
artifactId: spline-core
version: 0.3.5
groupId: za.co.absa.spline
artifactId: spline-persistence-mongo
version:0.3.5
groupId: za.co.absa.spline
artifactId:spline-core-spark-adapter-2.3
version:0.3.5

参考Scala和Spark 2.3.x,像这样的Spark作业:

// Create the Spark session
val sparkSession = SparkSession
.builder()
.appName("Spline Tester")
.getOrCreate()

// Init Spline
System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", args(0))
System.setProperty("spline.mongodb.name", args(1))
import za.co.absa.spline.core.SparkLineageInitializer._
sparkSession.enableLineageTracking()

//Do something with DataFrames
import sparkSession.sqlContext.implicits._
val df1 = sparkSession.sparkContext.parallelize(1 to 10000, 42).toDF("FirstValue")
val df2 = sparkSession.sparkContext.parallelize(1.to(100000, 17), 42).toDF("SecondValue")

val output = df1.crossJoin(df2).where('FirstValue % 42 === 'SecondValue % 42)

// Write results to file system
output.write.format("parquet").save("splinetester.parquet")

// Stop the Spark Session
sparkSession.stop()

可以通过以下方式提交到Spark集群:

$SPARK_HOME/bin/spark-submit --class org.googlielmo.splinetest.SplineExample --master <url> --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5" splinetest-1.0.jar mongodb://<username>:<password>@<hostname>:<port> <dbname>

样条线配置属性也可以存储到应用程序类路径中的属性文件中。 这是可用的样条曲线属性的完整列表:

  • spline.mode :3个可能的值, BEST_EFFORT (默认), DISABLEDREQUIRED 。 如果为BEST_EFFORT,则Spline会尝试初始化自身,但如果失败,它将切换为DISABLED模式,以便Spark应用程序可以正常进行而没有沿袭跟踪。 如果禁用,则根本不会发生沿袭跟踪。 如果需要,则Spline是否由于任何原因而无法初始化自身,Spark应用程序将中止并显示错误。
  • spline.persistence.factory :可以是za.co.absa.spline.persistence.mongo.MongoPersistenceFactory (用于对MongoDB的持久性)或za.co.absa.spline.persistence.hdfs.HdfsPersistenceFactory (用于对HDFS的持久性)。
  • spline.mongodb.url :MongoDB连接字符串(仅适用于MongoDB持久性)。
  • spline.mongodb.name:MongoDB数据库名称(仅适用于MongoDB持久性)。
  • spline.persistence.composition.factories :以逗号分隔的要委托的工厂列表(仅在成分工厂的情况下)。

第一次从Spark作业启用Spline时,它将在目标MongoDB数据库中创建6个集合:

    • attributes_v4 :有关所涉及的Spark数据集的属性的信息。

Spline Web应用程序使用这6个集合中的文档来生成UI中沿袭的视觉表示。

在本系列的第三部分和最后一部分中,我将分享在Spark预生产环境中采用该项目的最初几周后的结果。

翻译自: https://www.javacodegeeks.com/2018/12/spline-tracker-visualization-tool-spark.html

spline

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值