spark 基础(rdd,spark计算分片等。。）

最新推荐文章于 2023-04-21 21:37:17 发布

a724952091

最新推荐文章于 2023-04-21 21:37:17 发布

阅读量267

点赞数

文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a724952091/article/details/115446147

版权

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

通俗点来讲，可以将 RDD 理解为一个分布式对象集合，本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区，每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上，从而可以在集群中的不同结点上进行并行计算。
关于spark 的计算下面这个word count 的demo图应该都见过太多次了

如果要真正理解计算的话，可以结合装饰者设计模式来理解，如常见的java 的Io流结合缓冲流就是一个常见装饰者设计模式。

其实spark的多个算子也是通过这种形式去实现的rdd的数据传递。

通过这两张图可以非常清楚的发现rdd的实现本质上是结合的装饰者设计模式，与io流及其相似。

io流单纯的new 对象的时候不会读取数据，只有read的时候也就是用的时候才会开始读取数据，这与spark的触发算子功能本质一样。

当然区别也有比如io流会在缓冲区临时存储数据，但是rdd是不保存数据的。

使用seq或者list进行makeRdd时传入分区参数数据分配方式取决于以下底层核心源码：根据公式可分别计算出每个分片里存的数据位置

cache persist checkpoint

cache:将数据临时存储在内存中进行数据重用，会在血缘关系中添加新的依赖。一旦出现问题，可以从头重新读取数据

persist:将数据临时存储在从磁盘文件中进行数据重用（具体需要自己指定存储级别）涉及到磁盘io 性能较低，但是数据安全，如果作业执行完毕，临时保存的数据文件就会丢失

checkpoint：将数据长久地保存在磁盘文件中进行数据重用涉及到磁盘IO，性能较低，但是数据安全。为了保证数据安全，所以一般情况下，会独立执行作业

为了能够提高效率，一般情况下，是需要和cache联合使用，

执行过程中，会切断学院关系，重新建立器新的血缘关系 checkpoint等同于改变数据源。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark 基础(rdd,spark计算分片等。。）

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。通俗点来讲，可以将 RDD 理解为一个分布式对象集合，本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区，每个分区就是一个数据集片段。一个 RDD
复制链接

扫一扫

a724952091 CSDN认证博客专家 CSDN认证企业博客

码龄7年

21: 原创

15万+: 周排名

42万+: 总排名

3万+: 访问

: 等级

230: 积分

5: 粉丝

9: 获赞

5: 评论

75: 收藏

私信

关注

热门文章

最新评论

通过使用lettuce连接器的报错了解到URI的特殊字符转换
szpenglq: 这中方法没用的，请不要到处挖坑
消费kafka数据连接kafka失败问题
magic_kid_2010: kafka producer 设置的 acks=1, kafka server 设置的 min.insync.replicas=2。当 kafka 可用副本只有1时，为什么会收到 NOT_ENOUGH_REPLICAS、Messages are rejected since there are fewer in-sync replicas than required 的提示。不是只针对 ack=all 才起作用嘛？
flink-hive分区提交机制
G3-平头哥: 你好，我看我这边没打印日志，也没合并，custom和 class 属性都配了，不知道啥原因。 flink版本是1.16.1
Flink之AsyncDataStream
yann.bai: 大佬，这个如何理解 “使用Async I/O，需要外部存储有支持异步请求的客户端”，在这里假如外对的调用的是同步api会如何呢
flink(8) 状态 checkpoint 状态一致性
向彪-blockchain: 写的不错，果断收藏!方便的话可以加个关注。共同学习！一起进步！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。