Spark学习二：RDD的创建、转换、求值和缓存操作

最新推荐文章于 2022-06-20 11:45:45 发布

不能止步

最新推荐文章于 2022-06-20 11:45:45 发布

阅读量574

点赞数

分类专栏：大数据文章标签： Spark RDD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l460133921/article/details/88770139

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

RDD的简单说明

RDD称为弹性分布式数据集(Resilient Distributed Dataset)，其实就是分布式的元素集合，对RDD的操作可以分为四类：创建、转化、求值和缓存，如下：
在这里插入图片描述
RDD是一个不可变的分布式对象集合，每个RDD被分为多个分区，运行在集群中的不同节点上。创建RDD后可对其执行转化操作(Transformation)、行动(Action)操作和缓存操作。

Spark采用惰性计算方式计算这引些操作，只有遇到第一个行动操作时才会真正的开始计算。

区分转化操作和行动操作的一个重要标志是返回类型：转化操作返回的是RDD，而行动操作返回的是其他的数据类型。

不应该把RDD看作存放特定数据的数据集，最好把每个RDD当作通过转化操作构建出来的、记录如何计算数据的指令列表。

RDD的依赖包括：窄依赖和宽依赖。窄依赖是指父RDD的分区最多只能被一个子RDD的分区所引用，即一个父RDD的分区对应一个子RDD的分区，或者多个父RDD的分区对应一个子RDD的分区。宽依赖就是指子RDD的分区依赖于父RDD的多个分区或所有分区，即存在一个父RDD的一个分区对应一个子RDD的多个分区，如下图：
在这里插入图片描述

创建RDD

读取外部数据集或在驱动器程序中对一个集合进行并行化，常用的操作包含：
在这里插入图片描述

转换操作

将RDD转变为另一个RDD，常见的转化操作有包含：
在这里插入图片描述

行动操作

会对RDD计算出一个结果，并把结果返回到驱动器程序中，常用的行动操作包括：
在这里插入图片描述

缓存操作

Spark默认情况下会在每次对RDD进行选择操作时重新计算，如果想在多个行动操作中重用同一个RDD，可以把这个RDD缓存到内存或磁盘上。常用的缓存操作如下：
在这里插入图片描述

代码示例

请从SparkDemo下载未例代码，运行的环境搭建从参考Spark学习一：搭建基于Gradle和Scale的Spark工程，其中：

SparkUtils–创建RDD
RDDActionFunctions–行动操作
RDDTransformFunctions --转换操作
RDDCacheFunctions --缓存操作

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

不能止步 CSDN认证博客专家 CSDN认证企业博客

码龄15年

87: 原创

2万+: 周排名

167万+: 总排名

66万+: 访问

: 等级

3684: 积分

1831: 粉丝

205: 获赞

61: 评论

549: 收藏

私信

关注

热门文章

分类专栏

日常开发问题收录 13篇
数据库 2篇
微服务开发100问 6篇
微服务 3篇
C/C++ 1篇
androd 21篇
java 13篇
Spring Security 4篇
python 8篇
linux 5篇
团队管理 4篇
数据分析 2篇
gradle 3篇
AI 2篇
工具 5篇
测试 4篇
软件架构 5篇
大数据 3篇

最新评论

Android gdb调试
brightsm: 问一下楼主，qt 5.14.2调试时无法挂接运行中的进程，始终显示挂接失败，怎么处理呀。
DataFrame过滤数据时出现"The truth value of a Series is ambiguous"错误及其解决办法
m0_64148754: 为什么我还是报这个错
pyCharm中python对象的自动提示
不能止步: 这篇博客就是解决这类问题的，你可以接着往下看。 Python 3.5 之前可以通过变量注释的方法说明变量类型，如 a = 1 # type: int Python 3.6后支持定义变量类型的方法，如 a: int = 1 这样IDE才能自动提示。
pyCharm中python对象的自动提示
双手成就梦想。: 为什么我导入 opnepyxl的load_workbook 模块，然后wb= load_workbook（‘xxx.xlsx’） wb. 出现的跟你第一张图一样的情况，没有任何有用的信息提示，第一张图导入第三方库没有提示的怎么解决的。
CodeReview效率提升工具：CodeReview Intellij IDEA插件
Youngless: 搜不到啊，神器，求一份

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。