Spark入门——1：RDD及编程接口

最新推荐文章于 2021-12-26 13:42:30 发布

DataDamon

最新推荐文章于 2021-12-26 13:42:30 发布

阅读量2k

点赞数 1

分类专栏： Spark 文章标签： RDD spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gongcan1219/article/details/45626179

版权

Spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

RDD是Spark的核心，也是整个Spark的架构基础。spark与mapreduce相比，前者提供了更加丰富的编程接口给程序猿们。所以下面主要说明RDD的基本概念，以及其重要接口。

RDD包含4大操作：

1，创建操作：RDD的创建有两个途径。一个是来之外部存储系统（例如：HDFS，S3）或者内部集合，另外一个是来自其他RDD的转换操作（例如map，join，filter，等）。

1)从集合中生成：parallelize（）,makeRDD()

2)通过存储创建：textFile（）, hadoopFile(),sequenceFile(),objectFile(),hadoopRDD(),

newAPIHadoopFile()

2，转换操作：map，distinct，flatMap，repartition，coalesce，union，intersection， subtract

如果RDD中有很多空任务或者小任务，可以调用coalesce或者repartition来减少 partition数量。repartition只是coalesce接口中shuffle为true的简单实现，repartition 调用coalesce

关于coalesce合并函数设置shuffle参数的问题（M个分区重新化为N个分区）：

若M<N，如果有数据分布不均的情况，用HashPartitioner函数将数据重新分成M个分区，需将shuffle设为true

若M>N，且相差不多（M=1000,N=100），可将M个分区中部分分区合并为一个，最终合成 N个分区，可将shuffle设为false，这样父子RDD之间为窄依赖

若M>N，且相差悬殊（M=1000,N=1），这时父子RDD本身就是窄依赖，同在一个 stage中存在并行程度不够的问题，可将shuffle设为true，提高并行化程度

在并行度和shuffle数据写磁盘之间做平衡

union操作可能包含重复数据，intersection不会有重复数据

若map操作过程中需要频繁创建额外对象，可以用mappartition使同一个分区共享同一个对象，以提高性能

Zip操作默认两个RDD的partition数和元素数都相等，否则异常；zipPartition需要RDD具有相同分区数即可

3，控制操作：cache（），persist（），checkpoint（）

checkpoint与persist的不同在于：checkpoint操作会将RDD持久化在HDFS中，后者在memory中；其次checkpoint会切断之前所有的依赖关系

4，行动操作：

集合标量行动：count，reduce，first，collect，tak*e，top，takeOrdered，aggregate

存储行动：saveAs@%*&#

RDD的一个操作会被用在所有该RDD的数据上（即所谓的粗粒度操作），这使得只要记下RDD的转换操作就能构建它的继承关系（lineage）。

RDD分区：

创建RDD时，如果不指定分区，系统会默认分区数，默认值是该程序被分配资源的CPU数目。

RDD优先位置（preferlocation）：

RDD按照“移动计算”理念，spark调度时尽可能将任务分配到数据块存储的位置。preferlocation返回的是数据块存储的位置。

RDD的依赖关系：

窄依赖（OneToOneDependency）：每个父RDD最多只被子RDD的一个分区所使用（map，filter）

宽依赖(ShuffelDependency)：多个子RDD依赖同一个父RDD（没经过partition的RDD进行join）

依赖的影响：宽依赖需要取得所有父RDD所有分区数据进行计算，做类似MR里面的shuffle操作，窄依赖可以在集群的一个节点上流水线般执行；窄依赖对节点故障恢复起来更快，并行化计算效果更好。

RDD分区函数（partitioner）

HashPartitioner和RangePartitioner。partitioner只存在于（K,V）类型的RDD中。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark入门——1：RDD及编程接口

RDD是Spark的核心，也是整个Spark的架构基础。spark与mapreduce相比，前者提供了更加丰富的编程接口给程序猿们。所以下面主要说明RDD的基本概念，以及其重要接口。 RDD包含4大操作： 1，创建操作：RDD的创建有两个途径。一个是来之外部存储系统（例如：HDFS，S3）或者内部集合，另外一个是来自其他RDD的转换操作（例如m
复制链接

扫一扫

专栏目录

DataDamon CSDN认证博客专家 CSDN认证企业博客

码龄13年

11: 原创

43万+: 周排名

120万+: 总排名

1万+: 访问

: 等级

285: 积分

5: 粉丝

2: 获赞

1: 评论

4: 收藏

私信

关注

热门文章

分类专栏

最新评论

亚马逊从商品到商品的协同过滤推荐
cunliniuwa: 这里说亚马逊的算法是基于商品的协同过滤推荐算法。但是没有说基于商品哪些方面来计算商品之间的相似度？基于客户对商品的反馈吗？（点击率，加购率，转化率），还是什么方面呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。