Spark Streaming 流计算优化记录(2)-不同时间片数据流的Join_sparkstreaming sql多流join, 过期时间-CSDN博客

本文链接：https://blog.csdn.net/butterluo/article/details/47083891

本文详细阐述了如何通过扩展Spark Streaming的FileInputDStream类，实现LatestFileInputDStream来解决不同时间片数据流的缓存和checkpoint间隔时间不一致的问题，从而提高实时计算数据的效率，避免频繁读取大量数据导致的处理延迟。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 不同时间片数据流的Join

初体验之后, 看了一下Spark WebUi 的日志, 发现由于Spark Streaming需要每秒跑一次, 以实时计算数据, 所以程序不得不每秒都读一次HDFS去获取数据进行inner join.

本来SparkStreaming会对其进行处理的数据进行缓存, 以减少IO和提高计算速度的, 但由于现在我们的场景是要把每秒都有新数据的数据流与大约2周才更新一次HDFS数据进行inner join, 也就是两个数据流所要缓存的数据的时间区间是不一样的, 来自Kafka的数据流顶多缓存10秒就够了, 但来自HDFS的数据由于更新很慢, 则至少需要缓存一周. 但是原生的Spark Streaming只能支持时间间隔区间与缓存区间一致的数据流进行join, 这将导致不得不每秒或者每几秒都要去HDFS读取3G多数据, 进而对程序处理的实时性造成很大影响. (当然

“甘点得啊!”, 因此我们不得不扩展DStream(确切的说, 是扩展FileInputDStream, 自己写了一个LatestFileInputDStream用于处理不同时间片的数据流的整合.

SparkStreaming会每隔一段duration或remember time的时间做一次缓存或checkpoint, 为了解决不同时间片的数据流的缓存和checkpoint间隔时间不一致的问题, 我们需要在扩展FileInputDStream的LatestFileInputDStream中重写缓存和checkpoint的逻辑, 使它能够没两周从HDFS中读一次最新的数据, 然后和每秒从Kafka不断涌入的数据进行Inner Join.

SparkStreaming的checkpoing逻辑大部分封装在DStreamCheckpointData类中: