java coalesce_java-Spark：将 DataSet 的两列 coalesce 为一列

最新推荐文章于 2023-04-20 12:48:35 发布

苏建连

最新推荐文章于 2023-04-20 12:48:35 发布

阅读量219

点赞数

文章标签： java coalesce

本文链接：https://blog.csdn.net/weixin_34140828/article/details/114513765

版权

这篇博客介绍了如何在Java Spark中使用SQL查询将两个DataSet的一列进行连接，并通过设置`spark.sql.shuffle.partitions`来优化内存管理和性能。示例展示了如何将两个DataFrame `tt1` 和 `tt2` 通过JOIN操作合并成新的DataFrame `output`，并展示了数据结果。

摘要由CSDN通过智能技术生成

以下方法将起作用

import spark.implicits._

val t1 = Seq((1,1),(1,1),(1,3),(2,5),(3,1),(3,2),(3,3))

val t2 = Seq((1,"A"),(2,"B"),(3,"C"),(4,"D"),(5,"E"),(6,"F"),(7,"G"))

val tt1 = sc.parallelize(t1).toDF("id1","id2")

.persist(StorageLevel.MEMORY_AND_DISK)

val tt2 = sc.parallelize(t2).toDF("id", "obj")

.persist(StorageLevel.MEMORY_AND_DISK)

tt1.show()

tt2.show()

tt1.createOrReplaceTempView("table1")

tt2.createOrReplaceTempView("table2")

val output = sqlContext.sql(

"""

|SELECT DISTINCT id, obj

|FROM table1 t1

|JOIN table2 t2 ON(t1.id1 = t2.id) OR (t1.id2 = id)

|ORDER BY id

|""".stripMargin).persist(StorageLevel.MEMORY_AND_DISK)

output.show()

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

苏建连

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java coalesce_java-Spark：将 DataSet 的两列 coalesce 为一列

以下方法将起作用import spark.implicits._val t1 = Seq((1,1),(1,1),(1,3),(2,5),(3,1),(3,2),(3,3))val t2 = Seq((1,"A"),(2,"B"),(3,"C"),(4,"D"),(5,"E"),(6,"F"),(7,"G"))val tt1 = sc.parallelize(t1).toDF("id1","id2...
复制链接

扫一扫