Spark之RDD的glom算子

最新推荐文章于 2022-08-20 15:36:47 发布

少心

最新推荐文章于 2022-08-20 15:36:47 发布

阅读量5.4k

点赞数 2

分类专栏：大数据 Spark 文章标签： glom spark scala

本文链接：https://blog.csdn.net/qq_41595282/article/details/94590087

版权

大数据同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

Spark

9 篇文章 1 订阅

订阅专栏

glom

glom的作用是将同一个分区里的元素合并到一个array里
glom属于Transformation算子：这种变换并不触发提交作业，完成作业中间过程处理。
Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。
源码:

 /**
       * Return an RDD created by coalescing all elements within each partition into an array.
       */
      def glom(): RDD[Array[T]] = withScope {
        new MapPartitionsRDD[Array[T], T](this, (context, pid, iter) => Iterator(iter.toArray))
      }

举例说明
建一个RDD，glom之前为
在这里插入图片描述
glom之后可见RDD中的元素已经变成了分片映射的列表