RDD编程(含代码)

Rdd编程(林子雨版本)

1.P146
本地文件系统加载数据
在这里插入图片描述

从分布式文件系统hdfs
在这里插入图片描述

通过并行集合(数组)

(1)
在这里插入图片描述

(2)
在这里插入图片描述

RDD被创建好以后,在后续使用过程中一般会发生两种操作:

  • 转换(Transformation): 基于现有的数据集创建一个新的数据集。
  • 行动(Action):在数据集上进行运算,返回计算值。
    转换操作
    对于RDD而言,每一次转换操作都会产生不同的RDD,供给下一个“转换”使用。转换得到的RDD是惰性求值的,也就是说,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作。
    下面列出一些常见的转换操作(Transformation API):
  • filter(func):筛选出满足函数func的元素,并返回一个新的数据集
    在这里插入图片描述

如果line包含Spark就把元素加到rdd 中
P116

  • map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

  • flatMap(func):与map()相似,但每个输入元素都可以映射到0或多个输出结果
    在这里插入图片描述

  • groupByKey():应用于(K,V)键值对的数据集时,返回一个新的(K, Iterable)形式的数据集
    在这里插入图片描述

  • reduceByKey(func):应用于(K,V)键值对的数据集时,返回一个新的(K, V)形式的数据集,其中的每个值是将每个key传递到函数func中进行聚合
    在这里插入图片描述

行动操作
行动操作是真正触发计算的地方。Spark程序执行到行动操作时,才会执行真正的计算,从文件中加载数据,完成一次又一次转换操作,最终,完成行动操作得到结果。
下面列出一些常见的行动操作(Action API):

  • count() 返回数据集中的元素个数
  • collect() 以数组的形式返回数据集中的所有元素
  • first() 返回数据集中的第一个元素
  • take(n) 以数组的形式返回数据集中的前n个元素
  • reduce(func) 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素
  • foreach(func) 将数据集中的每个元素传递到函数func中运行
    在这里插入图片描述

惰性机制
出现问题在地址
持久化
触发一次从头开始的计算
在这里插入图片描述

例子1:在这里插入图片描述

例子2:
在这里插入图片描述

会调用persist(MEMORY_ONLY)
rdd.persist(MEMORY_ONLY)
,但是语句执行这里,并不会缓存rdd,因为这时rdd还没计算生成,数据调用速度变快,

分区
在这里插入图片描述

一个实例
在这里插入图片描述

课后题
(1)该系总共有多少学生
在这里插入图片描述

分割根据,分割,取第一个数值——名字
把名字相同的去掉重复的
(2)该系共开设多少门课程
在这里插入图片描述

(3)Tom 同学的总成绩平均分是多少
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值