Spark核心--RDD

最新推荐文章于 2024-08-25 08:27:26 发布

盖世胖胖

最新推荐文章于 2024-08-25 08:27:26 发布

阅读量482

点赞数

文章标签： spark RDD 弹性分布式数据集 RDD基本操作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/peerless_hero/article/details/54382019

版权

Spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

RDD

RDD(Resilient Distributed Datasets)即弹性分布式数据集，它是Spark的核心概念，我们从以下几点来理解它：
1. RDD由多个Partition构成，是分布在集群中的只读对象的集合。
2. RDD存储在磁盘或内存中，Spark提供了多种RDD缓存级别。
3. RDD可通过并行”转换”操作进行构造。
4. RDD失效后会自动重构。

如下图所示，RDD有三个分片，分片1存储在节点1的内存里，分片2存储在节点2的内存里，分片3存储在节点2的磁盘上。
RDD存储

RDD基本操作–Transformation & Action

Transformation操作是指通过程序集合或者Hadoop数据集构造一个新的RDD，即通过已有的RDD产生新的RDD。Action操作是指通过RDD计算而得到一个值或者一组值。

RDD基本操作

Transformation接口定义：RDD[X] -> RDD[Y]
Action接口定义：RDD[X] -> Z (Z不是一个RDD, 可能是基本类型或数组等)

更多的接口定义如下：
Spark基本操作的接口

惰性执行
这里要强调一点，Transformation只会记录RDD转化关系，并不会触发计算；Action才是触发程序执行的算子。
我们结合下图再解释下，RDD1通过Map(+1)的Transformation操作，新生成了RDD2，此时还没有触发计算。当RDD2执行saveAsTextFile的Action操作时，程序才触发执行，并将结果以文本文件的形式保存到了存储介质上。
惰性执行

RDD cache/persist

Spark提供了RDD缓存机制，它允许将RDD缓存到内存中或磁盘上，以便重用。Spark提供了多种缓存级别，以便于用户根据实际需求进行设置。
RDD cache

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark核心--RDD

RDDRDD(Resilient Distributed Datasets)即弹性分布式数据集，它是Spark的核心概念，我们从以下几点来理解它： 1. RDD由多个Partition构成，是分布在集群中的只读对象的集合。 2. RDD存储在磁盘或内存中，Spark提供了多种RDD缓存级别。 3. RDD可通过并行”转换”操作进行构造。 4. RDD失效后会自动重构。如下图所示，RDD有三个
复制链接

扫一扫

专栏目录

盖世胖胖 CSDN认证博客专家 CSDN认证企业博客

码龄12年

50: 原创

13万+: 周排名

112万+: 总排名

17万+: 访问

: 等级

2098: 积分

18: 粉丝

29: 获赞

18: 评论

95: 收藏

私信

关注

热门文章

分类专栏

会计 1篇
感想 1篇
Java 10篇
Java并发 3篇
Maven 1篇
Spring 3篇
Mybatis 4篇
Tomcat 5篇
JVM 3篇
MQ 2篇
Dubbo 2篇
缓存 1篇
Disconf 2篇
I/O 1篇
定时任务 1篇
设计模式 4篇
ZooKeeper 1篇
操作系统 1篇

最新评论

dubbo接口访问控制
君子思: 解决了,是因服务的提供者有两天机器防火墙开启了
dubbo接口访问控制
弃飞: 你好，你解决了吗，我的也差不多，开发环境没问题，一上线甚至连接不上
如何中断一个线程？
IT IS ME: 使用中断信号量中断非阻塞状态的线程这一块在开发中根本不能用，也只是理论上可行而已
dubbo接口访问控制
君子思: 大佬，你好，我这边有有一个dubbo的consumer,有两个dubbo的provider,一个开发环境，一个是测试环境，每次consumer启动的时候，连接测试环境的注册中心没有任何问题，链接开发环境的注册中心，订阅服务需要很久，一个接口大概要7-8s,请问这种问题该怎么检查
Dubbo超时配置
君子思: 大佬，你好，我这边有有一个dubbo的consumer,有两个dubbo的provider,一个开发环境，一个是测试环境，每次consumer启动的时候，连接测试环境的注册中心没有任何问题，链接开发环境的注册中心，订阅服务需要很久，一个接口大概要7-8s,请问这种问题该怎么检查

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。