Spark core学习笔记

Say wow

已于 2024-04-16 17:48:30 修改

阅读量665

点赞数 24

文章标签： spark 学习笔记

于 2024-04-16 16:54:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_65010464/article/details/137826077

版权

Spark特点

1.速度快

基于内存计算，速度较MapReduce快100倍

2.易于使用

使用Scala语言编写，使用较少的代码量就可以实现较为复杂的业务。

3.生态完整

支持离线计算、支持微批处理下的实时计算、支持图计算和机器学习。

Spark core

RDD

spark的核心RDD：弹性分布式数据集，特点是不可变，可分区，里面元素并行计算的集合

弹性可介于内存和磁盘之间保存，内存不够可保存在磁盘上。

分布式可以进行分区。

数据集存放了计算逻辑，不存具体数据。

可并行计算多个分区可交由不同节点进行计算

血缘

多个RDD之间的依赖关系就形成了血缘关系，有两种：宽依赖和窄依赖

窄依赖

子RDD一个分区的数据只依赖于父RDD一个分区的数据，如map，filter这种一对一的算子。

宽依赖

子RDD一个分区的数据依赖于父RDD多个分区，会产生shuffle操作，例如reduce类的聚合算子。

transformation转换算子

在使用转换算子后并不会立刻计算，而是直到遇到执行算子才开始计算；每个转换算子的返回值都是RDD，执行算子的返回值为非RDD的其他对象。如reduceBykey，map等。

action执行算子

带动转换算子执行运算，会返回非RDD的元素，标记了RDD依赖链的结束；如reduce、foreach等。

DAG有向无环图

多个RDD之间通过血缘进行连接形成的依赖链条即为DAG有向无环图，本质就是描述了RDD的执行流程；一张DAG有向无环图以RDD开始Action执行算子结尾，一个Spark程序可能会产生多个DAG有向无环图。

持久化和检查点

持久化

缓存在计算中需要重用的RDD，加快计算速度；也提供了一定的容错，如果计算失败可以不要重新计算而改用缓存；依然存在依赖链条，可以继续根据依赖链回溯。

persist()

提供了几种缓存机制，包括默认使用java序列化缓存在内存上(MEMORY_ONLY)、使用SER序列化缓存到内存上（MEMORY_ONLY_SER）、使用java序列化缓存在内存和磁盘之间（MEMORY_AND_DISK）等。

cache()

底层调用的persist的无参构造，默认使用MEMORY_ONLY缓存，即使用java序列缓存到内存上。

检查点checkpoint()

在HDFS中保存RDD，不保存RDD的依赖链，是复制实现的高容错机制；错误恢复时可以使用最近的checkpoint进行恢复，不会随程序结束删除。

Spark任务调度

概述

在driver中对任务进行调度，最后发送给Executor执行；
在这里插入图片描述

Stage

使用DAG对宽依赖进行划分，从最后一个RDD开始，使用回溯方法，遇到窄依赖包含到当前stage，遇到宽依赖断开形成新stage。

DAGScheduler

基于DAG图划分Stage并以taskset的形式提交到TaskScheduler。

TaskScheduler

将taskset提交到集群运行并监控。

Application

Spark的应用程序，包含一个Driver和若干Executor。

Driver

向集群管理申请资源运行Executor；根据不同模式运行在master节点或worker节点

Executor

每个Executor执行一组task任务，一个worker节点可以有多个Executor。

共享变量

broadcast广播变量

在分布式计算中发放对象时候，每个Executor task都会发放一份，在对象比较大时会占用大量服务器资源。使用广播变量var bc=SparkContext.broadcast(obj)，则每个Executor共享一份变量，降低了网络输出和服务器资源开销。使用bc.value取出对象计算。
注意的是，RDD不能直接被广播，因为RDD不保存数据，保存的是计算过程；需要使用collect算子转换为非RDD对象后才能广播。

accumulator累加器

分布式只写变量，Executor中的task不能访问累加器的值。普通对象只能在每个task中存一份副本，不能对driver中的变量实现更新操作。
使用方式：
val accu = sc.longAccumuator()
accu.add(参数)
也可通过继AccumulatorV2实现自定义累加器。

关注

24
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄3年

2
原创

27
点赞

20
收藏

12
粉丝

关注

私信

热门文章

最新评论

Spark core学习笔记
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Spark core学习笔记
普通网友: 好文！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
SAM 掩膜生成器学习笔记，从多个生成掩膜中得到分数最高的掩膜
CSDN-Ada助手: 恭喜你开始了博客创作之路！标题中提到的SAM掩膜生成器学习笔记听起来很有趣，能够从多个生成掩膜中找到分数最高的掩膜，这确实是一个很有技术含量的课题。希望你在博客中能够深入探讨这个主题，分享更多关于SAM掩膜生成器的知识和经验。另外，也建议你可以尝试结合实际案例或者应用场景，让读者更容易理解和应用你的研究成果。期待看到你更多精彩的博客内容，加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

SAM 掩膜生成器学习笔记，从多个生成掩膜中得到分数最高的掩膜

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。