spark总结（三）

最新推荐文章于 2024-07-16 23:47:57 发布

sun_code

最新推荐文章于 2024-07-16 23:47:57 发布

阅读量81

点赞数

分类专栏： spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/sun_code/article/details/117930179

版权

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

spark总结（三）：

多总结，养成好习惯

spark三大数据结构：

1、 RDD：弹性分布式数据集
2、累加器：分布式共享只写变量
3、广播变量：分布式共享只读变量

RDD特点：

1、RDD只是封装了计算逻辑，并不保存数据；
2、可分区、并行计算；
3、分为转换算子和行动算子，只有到行动算子处才会真正触发执行；
转换算子：如（map、flatmap、reduceByKey等等）
行动算子：如（collect、save等等）

spark总结：

1、算子意外的代码都是在Driver端执行，算子里面的代码都是在Executor端执行，所以需要传递的数据参数需要序列化。
2、RDD的血缘关系
RDD在进行转换操作的时候，不能记录数据，一旦发生错误，会根据血缘关系从新计算。
血缘就是“子找父，父找祖父等等”
3、RDD的“宽窄依赖”
窄依赖表示父RDD的Partition最多被子RDD的一个Partition使用；
宽依赖表示一个父RDD的Partition被多个子RDD的Partition依赖，及Shuffle操作；
4、RDD的Application、Job、Stage和Task关系：
Application：初始化一个SparkContext就会生成一个Application；
Job：一个行动算子就会生成一个Job
Stage:Stage等于宽依赖（shuffle）的个数加1；
Task:一个Stage阶段中，最后一个RDD的分区个数就是Task个数
注意：Application->Job->Stage->Task每一层都是1对n的关系
5、RDD持久化
因为转换算子是不存储数据的，也是懒加载，也就是遇到行动算子才会触发计算，所以假如转换过程中发生了错误，或者同一RDD被多个子RDD使用，这就只能从新计算
Rdd.cache():缓存级别分为内存和磁盘，或者两者兼并，存储于磁盘的只是临时文件，程序结束时文件清除
rdd.setCheckpointDir():会将中间的结果存储于文件系统中，可靠性高。
6、累加器（共享的写变量）
累加器用来对信息进行聚合，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量，累加器就可以实现这块功能。
7、广播（共享的读变量）
假如Driver端分发一份数据，数据不是广播变量，只能每一份task都copy一份，这会导致网络io和内存的消耗，如果为广播变量，则会分发给每个executor一份，这个executor下面的task都会共享这一份数据，大大节约了资源。

sun_code

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark总结（三）

spark总结（三）：多总结，养成好习惯spark三大数据结构：1、 RDD：弹性分布式数据集2、累加器：分布式共享只写变量3、广播变量：分布式共享只读变量RDD特点：1、RDD只是封装了计算逻辑，并不保存数据；2、可分区、并行计算；3、分为转换算子和行动算子，只有到行动算子处才会真正出发执行；转换算子：如（map、flatmap、reduceByKey等等）行动算子：如（collect、save等等）累加器特点：广播特点：spark总结：1、算子意外的代码都是在Driv
复制链接

扫一扫