spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具（第2部分）

最新推荐文章于 2024-12-09 12:44:57 发布

cunfen0516

最新推荐文章于 2024-12-09 12:44:57 发布

阅读量577

点赞数 1

文章标签：数据库可视化大数据 java mongodb

原文链接：https://www.javacodegeeks.com/2018/12/spline-tracker-visualization-tool-spark.html

版权

spline

在第1部分中，我们学习了如何使用以下方法测试数据沿袭信息收集Spark外壳中的花键。在任何Scala或Java Spark应用程序中都可以这样做。需要在您选择的构建工具(Maven，Gradle或sbt)中注册与Spark shell相同的依赖项：

groupId: za.co.absa.spline
artifactId: spline-core
version: 0.3.5
groupId: za.co.absa.spline
artifactId: spline-persistence-mongo
version:0.3.5
groupId: za.co.absa.spline
artifactId:spline-core-spark-adapter-2.3
version:0.3.5

参考Scala和Spark 2.3.x，像这样的Spark作业：

// Create the Spark session
val sparkSession = SparkSession
.builder()
.appName("Spline Tester")
.getOrCreate()

// Init Spline
System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", args(0))
System.setProperty("spline.mongodb.name", args(1))
import za.co.absa.spline.core.SparkLineageInitializer._
sparkSession.enableLineageTracking()

//Do something with DataFrames
import sparkSession.sqlContext.implicits._
val df1 = sparkSession.sparkContext.parallelize(1 to 10000, 42).toDF("FirstValue")
val df2 = sparkSession.sparkContext.parallelize(1.to(100000, 17), 42).toDF("SecondValue")

val output = df1.crossJoin(df2).where('FirstValue % 42 === 'SecondValue % 42)

// Write results to file system
output.write.format("parquet").save("splinetester.parquet")

// Stop the Spark Session
sparkSession.stop()

可以通过以下方式提交到Spark集群：

$SPARK_HOME/bin/spark-submit --class org.googlielmo.splinetest.SplineExample --master <url> --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5" splinetest-1.0.jar mongodb://<username>:<password>@<hostname>:<port> <dbname>

样条线配置属性也可以存储到应用程序类路径中的属性文件中。这是可用的样条曲线属性的完整列表：

spline.mode ：3个可能的值， BEST_EFFORT (默认)， DISABLED ， REQUIRED 。如果为BEST_EFFORT，则Spline会尝试初始化自身，但如果失败，它将切换为DISABLED模式，以便Spark应用程序可以正常进行而没有沿袭跟踪。如果禁用，则根本不会发生沿袭跟踪。如果需要，则Spline是否由于任何原因而无法初始化自身，Spark应用程序将中止并显示错误。
spline.persistence.factory ：可以是za.co.absa.spline.persistence.mongo.MongoPersistenceFactory (用于对MongoDB的持久性)或za.co.absa.spline.persistence.hdfs.HdfsPersistenceFactory (用于对HDFS的持久性)。
spline.mongodb.url ：MongoDB连接字符串(仅适用于MongoDB持久性)。
spline.mongodb.name：MongoDB数据库名称(仅适用于MongoDB持久性)。
spline.persistence.composition.factories ：以逗号分隔的要委托的工厂列表(仅在成分工厂的情况下)。