在spark中进行 join操作之前,可以在oracle和spark中为 join查询创建一些性能矩阵,并 root据观察结果决定选择哪一个。几乎没有分析的指针,
如果 DataSet 的大小和 join操作足够大,不会在oracle DB中增加性能问题,那么在源(oracle)本身中执行 join操作。
希望这些指针有助于理解是否使用spark。
在这里,我将保留下面的答案,供您在spark选项中进行选择。
您可以通过以下两种方式来完成:为每个表创建dataframe、执行join操作、在spark内存中的register temp表之后以及在其上执行类似于oracle的sql查询。
下面是 DataSet 操作的示例代码,
Dataset jdbcDF1 = spark.read()
.format("jdbc")
.option("url", "oracle.jdbc.driver.OracleDriver")
.option("dbtable", "schema.table1")
.option("user", "username")
.option("password", "password")
.load();
Dataset jdbcDF2 = spark.read()
.format("jdbc")
.option("url", "oracle.jdbc.driver.OracleDriver")
.option("dbtable", "schema.table2")
.option("user", "username")
.option("password", "password")
.load();
jdbcDF1.join(jdbcDF1, jdbcDF1.col("id").equalTo(jdbcDF2.col("id")))