spark学习笔记:blockManager原理剖析

前言

从2020年3月换工作以及组织架构一系列调整后,笔者工作内容由之前的算法偏向了算法工程与大数据开发。作为一枚用Python作为主要语言的算法工程师来说,突然要开始工程开发了,pom是什么?maven是什么?打包?spark-submit脚本啥意思?redis?kafka?每天小小的脑袋大大的疑惑。有什么办法呢,只能从零开始学java,从零开始学scala,从零开始学spark。scala和java入门之后终于可以开始学习spark了。刚好最近视频教程讲到了一些进阶的东西,觉得挺有用,就从现在开始把学习笔记记录在博客吧。

学习教程:北风网spark2.0从入门到精通   https://www.bilibili.com/video/BV1sW41147vD?p=94&spm_id_from=pageDriver

虽然版本可能过时了,但是我觉得不妨碍学习,是个很好的教程,很喜欢这个老师。

 

笔记

课程相关集数:

P79 056_blockmanager原理剖析

P80 056_blockmanager源码剖析

原理图:(来自视频截图)

每个节点上都有blockManager,它有4个组件:

1.DiskStore 对磁盘上的数据进行读写

2.MemoryStore 对内存上的数据进行读写

3.ConnectionManager,负责blockManager到远程其他节点的blockManager的网络连接

4.BlockTransferService,负责对远程其他节点的BlockManager的数据的读写

 

blockManager启动之后首先向driver上的blockManagerMaster注册信息,blockManagerMaster生成blockManagerInfo.

 

使用blockmanager写操作时,比如RDD运行过程中的一些中间数据,或者手动指定的persist(),优先将数据写入内存中,如果内存不够则会用自己的算法将部分数据写入磁盘。如果persist()指定了replica,则blockManagerWorker会replicate一份数据到其他节点的blockManager上;

 

使用blockManager读操作时,比如shuffle read操作,先从local用diskStore或者MemoryStore读取数据,如果local没有,则用ConnectionManager与远程节点的blockManager建立连接,然后blockManagerMaster从远程的blockManager读取数据。

 

只要使用了blockManager进行了增删改操作,那么必须将block的status上报到blockManagerMaster上,会对指定blockManager的blockManagerInfo内部的blockStatus进行增删改操作,从而达到元数据的维护功能。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值