SparkStreaming中的foreachRDD、spark-core中foreach、spark-core中foreachPartition三者之间的区别

最新推荐文章于 2020-11-02 21:48:44 发布

Amos_Mu

最新推荐文章于 2020-11-02 21:48:44 发布

阅读量2k

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/mys_35088/article/details/81111039

版权

SparkStreaming中foreachRDD算子解析：

SparkStreaming是流式实时处理数据，就是将数据流按照定义的时间进行分割（就是“批处理”）。每一个时间段内处理的都是一个RDD。而SparkStreaming中的foreachRDD方法就是在处理每一个时间段内的RDD数据。

（官方文档”http://spark.apachecn.org”中的解释）

DStream中即使有foreachRDD算子也不会即使进行处理，只有foreach(func)函数func中存在了action算子才会执行运算，所以foreachRDD的函数中可以使用foreach和foreachPartition算子来触发action操作。

foreachRDD算子源码中的注释是：Apply a function to each RDD in this DStream. This is an output operator, so 'this' DStream will be registered as an output stream and therefore materialized.

（将函数应用于此DStream中的每个RDD。这是一个输出操作符，所以 'this'DStream将被注册为输出流，因此具体化。）

Spark-core中的foreachPartition算子解析：

foreachPartition是action算子，该算子源码中的注释是：Applies a function f to each partition of this RDD.（将函数f应用于此RDD的每个分区）

foreachPartition是对每个partition中的iterator时行迭代的处理.通过用户传入的function（即函数f）对iterator进行内容的处理，源码中函数f传入的参数是一个迭代器，也就是说在foreachPartiton中函数处理的是分区迭代器，而非具体的数据。

．Spark-core中的foreach算子解析：

与foreachPartition类似的是，foreach也是对每个partition中的iterator时行迭代处理，通过用户传入的function（即函数f）对iterator进行内容的处理。而不同的是，函数f中的参数传入的不再是一个迭代器，而是每次的foreach得到的一个rdd的kv实例，也就是具体的数据。

Foreach也是一个actor算子，源码中的注释是：Applies a function f to all elements of this RDD.（将函数f应用于此RDD的所有元素）

（官方文档”http://spark.apachecn.org”中的解释）

Amos_Mu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming中的foreachRDD、spark-core中foreach、spark-core中foreachPartition三者之间的区别

SparkStreaming中foreachRDD算子解析：SparkStreaming是流式实时处理数据，就是将数据流按照定义的时间进行分割（就是“批处理”）。每一个时间段内处理的都是一个RDD。而SparkStreaming中的foreachRDD方法就是在处理每一个时间段内的RDD数据。（官方文档”http://spark.apachecn.org”中的解释）DStream中即...
复制链接

扫一扫