RDD编程（含代码）

liu34434

于 2022-04-02 18:48:52 发布

阅读量600

点赞数

分类专栏：笔记文章标签： spark

本文链接：https://blog.csdn.net/liu34434/article/details/123926743

版权

9 篇文章 0 订阅

订阅专栏

Rdd编程（林子雨版本）

1.P146
本地文件系统加载数据
在这里插入图片描述

从分布式文件系统hdfs
在这里插入图片描述

通过并行集合（数组）

（1）
在这里插入图片描述

(2)
在这里插入图片描述

RDD被创建好以后，在后续使用过程中一般会发生两种操作：

转换（Transformation）：基于现有的数据集创建一个新的数据集。
行动（Action）：在数据集上进行运算，返回计算值。
转换操作
对于RDD而言，每一次转换操作都会产生不同的RDD，供给下一个“转换”使用。转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作。
下面列出一些常见的转换操作（Transformation API）：
filter(func)：筛选出满足函数func的元素，并返回一个新的数据集

如果line包含Spark就把元素加到rdd 中
P116

map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集
flatMap(func)：与map()相似，但每个输入元素都可以映射到0或多个输出结果
groupByKey()：应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集
reduceByKey(func)：应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合

行动操作
行动操作是真正触发计算的地方。Spark程序执行到行动操作时，才会执行真正的计算，从文件中加载数据，完成一次又一次转换操作，最终，完成行动操作得到结果。
下面列出一些常见的行动操作（Action API）：

惰性机制
出现问题在地址
持久化
触发一次从头开始的计算
在这里插入图片描述

例子1：在这里插入图片描述

例子2:
在这里插入图片描述

会调用persist(MEMORY_ONLY)
rdd.persist(MEMORY_ONLY)
,但是语句执行这里，并不会缓存rdd,因为这时rdd还没计算生成，数据调用速度变快，

分区
在这里插入图片描述

一个实例
在这里插入图片描述

课后题
（1）该系总共有多少学生
在这里插入图片描述

分割根据，分割，取第一个数值——名字
把名字相同的去掉重复的
（2）该系共开设多少门课程
在这里插入图片描述

（3）Tom 同学的总成绩平均分是多少
在这里插入图片描述

关注