spark的常识整理(二)====RDD

最新推荐文章于 2022-05-24 11:27:52 发布

魂落忘川犹在川

最新推荐文章于 2022-05-24 11:27:52 发布

阅读量261

点赞数 1

分类专栏：大数据 spark 文章标签： spark 大数据 RDD

本文链接：https://blog.csdn.net/weixin_43345864/article/details/84341232

版权

大数据同时被 2 个专栏收录

71 篇文章 0 订阅

订阅专栏

spark

8 篇文章 0 订阅

订阅专栏

前言：今天我接着上一篇RDD创建之后的内容继续来说，与各位博友共勉！

RDD的算子

RDD算子有两种

1、transformation算子（懒惰性算子，不会立即执行，一般不触发job的算子都是此类算子）

比如map，filter, flatmap , groupByKey ,reduceByKey, join(left right) ,cogroup, sortByKey等；
其中sortByKey是一个比较特殊的，他虽然触发了job任务，当官网依然把他定义为transformation算子。

2、Action算子（立即执行）(一般为触发了job的算子)

比如reduce，collect，take，countByKey, saveAsTextFile() ,foreach , collectAsMap , top() ,fold()(), distinct等。
使用collect应注意：collect是将RDD类型数据转化成数组，同时将远程集群数据全部拉取到Driver端，数据量过大时容易造成oom的结果。
其实也有一个偏门方法得出算子属于哪类算子：
在程序里算子执行后的返回值可以直接打印看到结果的是Action算子，否则依然是transformation算子。

另外还有几种算子：

Mappartitions算子：类似map，但不同的是map每次只处理一行数据，而Mappartition算子，一次处理一个分区的数据;
这个算子一般用在数据量不是特别大，可以用Mappartition代替map来处理数据，可以提高效率，否则数据量过大，可能会出现oom（内存溢出）的现象。
coalesce算子：这个算子是用来改变分区数量的的，它默认不发生shuffle过程，如果是减少分区，它是把分区数据整体拉取在一块，是不发生shuffle的，但是如果要想增加分区，需要修改参数false为true，而且此时发生了shuffle。
repartition算子：也是一个改变分区的算子，它与coalesce不同的是，它默认发生shuffle的，底层实现的是coalesce的true状态。

接下来说一下RDD算子内的一些小知识

持久化

1、cache：底层调用persist，并且只有一种缓存级别(MEMORY_ONLY)
2、persist：它的缓存级别有12种，默认也是内存(MEMORY_ONLY)

检查点（checkpoint）

如果我们运行的saprk程序十分复杂，从RDD初始化开始到程序结束，需要很长的时间，此时适合使用checkpoint
但是我们在进行checkpoint时需要存储和读取数据，会产生io消耗，所以一般只用来保存特别重要的数据，并且和cache联合使用，而他的数据一般会保存在可靠的文件系统中，如HDFS。当然也可以保存在磁盘上。