SparkStreaming输出算子foreachRDD介绍
SparkStreaming中的数据抽象叫做DStream。DStream是抽象类,它把连续的数据流拆成很多的小RDD数据块, 这叫做“微批次”, spark的流式处理, 都是“微批次处理”。 DStream内部实现上有批次处理时间间隔,滑动窗口等机制来保证每个微批次的时间间隔里, 数据流以RDD的形式发送给spark做进一步处理。因此, 在一个为批次的处理时间间隔里, DStream只产生一个RDD。foreachRDD、foreachPartition和foreach 的区别:首先是作用范围不
原创
2022-02-15 19:23:14 ·
1647 阅读 ·
0 评论