![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SparkCore
番茄炒蛋213
stay hungry,stay foolish!
展开
-
SparkCore之RDD算子Action
/** * 1、collect * 1)返回 Array(ele) * 2)实现方法:遍历添加到数组 * 3)需要注意的是因为该方法是把所有的数据放到内存,所以不适合大量数据==>否则OOM * * 2、take * 前n个元素 * collect vs take =====> * collect 是直接计算所有...原创 2020-05-01 17:20:05 · 180 阅读 · 0 评论 -
SparkCore之RDD算子transformation
1、map vs mapPartitionmap:作用于每一个元素,迭代次数==>元素数mapPartition:作用于每一个分区,迭代次数==>分区数==>因此,对于数据库创建、对象创建等操作,优选mapPartitionmapPartitionWithIndex:返回分区indexval rdd = sc.parallelize(List(1, 2, 3...原创 2020-05-01 17:05:27 · 137 阅读 · 0 评论 -
SparkCore之RDD概述
一、RDD简介RDD:弹性、分布式、数据集(resilient distrubuted dataset)1、弹性:分区数量可以调整2、分布式:可分区的集合(partitioned collection) 对于分区的数据可以以并行的方式操作(parallel)3、数据集不可变的(immutable):RDDA==>map==>RDDB(新的RDD)简单来说,RD...原创 2020-05-01 16:11:50 · 138 阅读 · 0 评论