Spark结构化流之join

最新推荐文章于 2023-12-16 17:26:17 发布

神之凝视

最新推荐文章于 2023-12-16 17:26:17 发布

阅读量627

点赞数

分类专栏： Spark 结构化流大数据文章标签： spark

本文链接：https://blog.csdn.net/qq_27600723/article/details/106593333

版权

本文介绍了Spark结构化流中的join操作，包括流静态联接和流流连接。内容涉及内部联接、流流内部连接的语义保证、水印延迟、事件时间约束以及外部联接的处理。此外，还讨论了在不同场景下如何定义水印和时间范围条件以处理延迟和乱序数据。

摘要由CSDN通过智能技术生成

一.join操作

结构化流支持将流数据集/数据帧与静态数据集/数据帧以及另一个流数据集/数据帧连接在一起。流连接的结果是增量生成的，类似于流聚合的结果。请注意，在所有受支持的联接类型中，使用流Dataset/DataFrame进行联接的结果将与使用包含流中相同数据的静态Dataset/DataFrame进行联接的结果完全相同。

二.流静态联接

自从Spark 2.0引入以来，结构化流已支持流和静态DataFrame / Dataset之间的联接（内部联接和某种类型的外部联接）。如下：

val staticDf = spark.read. ...
val streamingDf = spark.readStream. ...

streamingDf.join(staticDf, "type")          // inner equi-join with a static DF
streamingDf.join(staticDf, "type", "right_join")

最低0.47元/天解锁文章

神之凝视

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Spark结构化流之join

一.join操作结构化流支持将流数据集/数据帧与静态数据集/数据帧以及另一个流数据集/数据帧连接在一起。流连接的结果是增量生成的，类似于流聚合的结果。请注意，在所有受支持的联接类型中，使用流Dataset/DataFrame进行联接的结果将与使用包含流中相同数据的静态Dataset/DataFrame进行联接的结果完全相同。二.流静态联接自从Spark 2.0引入以来，结构化流已支持流和静态DataFrame / Dataset之间的联接（内部联接和某种类型的外部联接）。如下：val staticD
复制链接

扫一扫

专栏目录