Spark核心编程

最新推荐文章于 2023-07-30 20:47:38 发布

Yanko24

最新推荐文章于 2023-07-30 20:47:38 发布

阅读量183

点赞数

分类专栏： Spark 文章标签： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43495317/article/details/117459670

版权

Spark 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Spark核心编程

Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：

RDD：弹性分布式数据集
累加器：分布式共享只写变量
广播变量：分布式共享只读变量

1. RDD

1. 什么是RDD

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的原宿可并行计算的集合。

弹性
- 存储的弹性：内存与磁盘的自动切换；
- 容错的弹性：数据丢失可以自动恢复；
- 计算的弹性：计算出错重试机制；
- 分片的弹性：可根据需要重新分片
分布式：数据存储在大数据集群不同节点上
数据集：RDD封装了计算逻辑，并不保存数据
数据抽象：RDD是一个抽象类，需要子类具体实现
不可变：RDD封装了计算逻辑，是不可以改变的，想要改变，只能产生新的RDD，在新的RDD里面封装新的计算逻辑
可分区、并行计算

RDD的数据处理方式类似于IO流，也体现了装饰者设计模式，RDD的数据只有在调用collect方法时，才会真正的执行业务逻辑操作。之前的封装全部都是功能的扩展，并且RDD是不保存数据的，但是IO可以临时保存一部分数据。

2. 核心属性

分区列表

RDD数据结构中存在分区列表，用于执行任务时并行计算，是实现分布式计算的重要属性。
分区计算函数

Spark在计算时，是使用分区函数对每一个分区进行计算。
RDD之间的依赖关系

RDD是计算模型的封装，当需求中需要将多个计算模型进行组合时，就需要将多个RDD建立依赖关系。
分区器（可选）

当数据为KV类型数据时，可以通过设定分区器自定义数据的分区。
首选位置（可选）

计算数据时，可以根据节点的状态选择不同的节点位置进行计算，也就是说判断计算发送给那个节点的效率最优，即移动数据不如移动计算。

3. 执行原理

从计算的角度来讲，数据处理过程中需要计算资源（内存&CPU）和计算模型（逻辑）。执行时，需要将计算资源和计算模型进行协调和整合。

Spark框架在执行时，先申请资源，然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务分发到已经分配资源的计算节点上，按照指定的计算模型进行数据计算。最后得到结果。

RDD是Spark框架中用于数据处理的核心模型，在Yarn环境中，RDD的工作原理：

启动Yarn集群环境

Spark通过申请资源创建调度节点和计算节点

Spark框架根据需求将计算逻辑根据分区划分不同的任务

调度节点将任务根据计算节点状态发送到对应的计算节点进行计算

RDD在整个流程中主要用于将逻辑进行封装，并生成Task发送给Executor节点执行计算。

2. 累加器

1. 实现原理

累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量，在Executor端的每个Task都会得到这个变量的一份新的副本，每个Task更新这些副本的值后，传回Driver端进行merge。

3. 广播变量

1. 实现原理

广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个或多个Spark操作使用。在多个并行操作操作中使用同一个变量，但是Spark会为每个任务分别发送。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
Spark核心编程

Spark核心编程Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：RDD：弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量1. RDD1. 什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的原宿可并行计算的集合。弹性存储的弹性：内存与磁盘的自动
复制链接

扫一扫

专栏目录

Yanko24 CSDN认证博客专家 CSDN认证企业博客

码龄5年

147: 原创

2万+: 周排名

150万+: 总排名

19万+: 访问

: 等级

2042: 积分

3981: 粉丝

87: 获赞

62: 评论

729: 收藏

私信

关注

热门文章

分类专栏

最新评论

SBT在Windows上的配置
weixin_43903647: 请问第一步如何配置环境变量
Flink日志文件配置
qqaz2ws: 您好博主，我想把不同flink job的日志写入不同的Kafka topic，您这边有办法实现吗？
DBeaver连接Phoenix
m0_73097002: 引用「DBeaver安装路径中的dbeaver.ini文件，添加自己JDK的路径：」报这个错误，jdk改成1.8后，就打不开dbeaverle
Notepad++ 的安装及配置
Yanko24: 现在估计无法使用了，还是建议直接使用编译器。
Notepad++ 的安装及配置
2201_75828087: The plugin is not found是什么情况

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Yanko24 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。