大数据RDD详解笔记

1.为什么需要RDD?

RDD(Resilient Distribute Datasets):弹性分布式数据集
在这里插入图片描述在这里插入图片描述

2.RDD的五大特性

前三个是必须的,后面两个是可选的。
在这里插入图片描述
1.RDD是有分区的
RDD的分区是RDD数据存储的最小单位,一份RDD数据本质上被分成了很多分区。
分区是物理概念,RDD是逻辑上的概念,和列表字典一样。
2.计算方法会作用到每一个分区之上
在这里插入图片描述
3.RDD之间是有互相依赖关系的
在这里插入图片描述
4.Key- Value型的RDD可以有分区
在这里插入图片描述
5.RDD的分区规划,会尽量靠近数据所在的服务器
在这里插入图片描述

3.wordcount案例的RDD分析图

在这里插入图片描述

在这里插入图片描述

4.程序执行入口:SparkContext 对象

在这里插入图片描述

5.RDD的两种创建方式

在这里插入图片描述
1.并行化创建,使用parallelize()创建
在这里插入图片描述
2.读取文件创建,使用textFile()以及wholeTextFile()创建
在这里插入图片描述
在这里插入图片描述

6.RDD算子概念和分类

算子是什么:分布式集合对象上的API叫做算子
本地对象的API,叫做方法/函数
分布式对象的API,叫做算子
算子我们可以分成两类:
在这里插入图片描述

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值