spark学习笔记：blockManager原理剖析

最新推荐文章于 2023-08-19 00:26:19 发布

KIDxu

最新推荐文章于 2023-08-19 00:26:19 发布

阅读量290

点赞数

分类专栏： spark学习笔记文章标签：大数据 spark

本文链接：https://blog.csdn.net/KIDxu/article/details/113695595

版权

spark学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

从2020年3月换工作以及组织架构一系列调整后，笔者工作内容由之前的算法偏向了算法工程与大数据开发。作为一枚用Python作为主要语言的算法工程师来说，突然要开始工程开发了，pom是什么？maven是什么？打包？spark-submit脚本啥意思？redis?kafka?每天小小的脑袋大大的疑惑。有什么办法呢，只能从零开始学java，从零开始学scala，从零开始学spark。scala和java入门之后终于可以开始学习spark了。刚好最近视频教程讲到了一些进阶的东西，觉得挺有用，就从现在开始把学习笔记记录在博客吧。

学习教程：北风网spark2.0从入门到精通 https://www.bilibili.com/video/BV1sW41147vD?p=94&spm_id_from=pageDriver

虽然版本可能过时了，但是我觉得不妨碍学习，是个很好的教程，很喜欢这个老师。

笔记

课程相关集数：

P79 056_blockmanager原理剖析

P80 056_blockmanager源码剖析

原理图：（来自视频截图）

每个节点上都有blockManager，它有4个组件：

1.DiskStore 对磁盘上的数据进行读写

2.MemoryStore 对内存上的数据进行读写

3.ConnectionManager，负责blockManager到远程其他节点的blockManager的网络连接

4.BlockTransferService，负责对远程其他节点的BlockManager的数据的读写

blockManager启动之后首先向driver上的blockManagerMaster注册信息，blockManagerMaster生成blockManagerInfo.

使用blockmanager写操作时，比如RDD运行过程中的一些中间数据，或者手动指定的persist(),优先将数据写入内存中，如果内存不够则会用自己的算法将部分数据写入磁盘。如果persist()指定了replica，则blockManagerWorker会replicate一份数据到其他节点的blockManager上；

使用blockManager读操作时，比如shuffle read操作，先从local用diskStore或者MemoryStore读取数据，如果local没有，则用ConnectionManager与远程节点的blockManager建立连接，然后blockManagerMaster从远程的blockManager读取数据。

只要使用了blockManager进行了增删改操作，那么必须将block的status上报到blockManagerMaster上，会对指定blockManager的blockManagerInfo内部的blockStatus进行增删改操作，从而达到元数据的维护功能。