Spark Streaming: 保存上一个批次数据的计算结果
在Spark Streaming计算模型下,有时候我们对当前 batch 数据的计算需要依赖上一个 batch 的计算结果,如广告系统中检索日志和曝光时间的join拼接。这时可以使用JavaStreamingContext#remember()方法完成。该方法需要一个时间参数,用来指定要”记住”多久时间内的 RDD 数据。但是悲剧的是,文档对被”记住”的数据在哪里、如何引入这些数据却没有任何说明,这
原创
2017-12-08 19:25:41 ·
7085 阅读 ·
7 评论