前言
从2020年3月换工作以及组织架构一系列调整后,笔者工作内容由之前的算法偏向了算法工程与大数据开发。作为一枚用Python作为主要语言的算法工程师来说,突然要开始工程开发了,pom是什么?maven是什么?打包?spark-submit脚本啥意思?redis?kafka?每天小小的脑袋大大的疑惑。有什么办法呢,只能从零开始学java,从零开始学scala,从零开始学spark。scala和java入门之后终于可以开始学习spark了。刚好最近视频教程讲到了一些进阶的东西,觉得挺有用,就从现在开始把学习笔记记录在博客吧。
学习教程:北风网spark2.0从入门到精通 https://www.bilibili.com/video/BV1sW41147vD?p=94&spm_id_from=pageDriver
虽然版本可能过时了,但是我觉得不妨碍学习,是个很好的教程,很喜欢这个老师。
笔记
课程相关集数:
P79 056_blockmanager原理剖析
P80 056_blockmanager源码剖析
原理图:(来自视频截图)
每个节点上都有blockManager,它有4个组件:
1.DiskStore 对磁盘上的数据进行读写
2.MemoryStore 对内存上的数据进行读写
3.ConnectionManager,负责blockManager到远程其他节点的blockManager的网络连接
4.BlockTransferService,负责对远程其他节点的BlockManager的数据的读写
blockManager启动之后首先向driver上的blockManagerMaster注册信息,blockManagerMaster生成blockManagerInfo.
使用blockmanager写操作时,比如RDD运行过程中的一些中间数据,或者手动指定的persist(),优先将数据写入内存中,如果内存不够则会用自己的算法将部分数据写入磁盘。如果persist()指定了replica,则blockManagerWorker会replicate一份数据到其他节点的blockManager上;
使用blockManager读操作时,比如shuffle read操作,先从local用diskStore或者MemoryStore读取数据,如果local没有,则用ConnectionManager与远程节点的blockManager建立连接,然后blockManagerMaster从远程的blockManager读取数据。
只要使用了blockManager进行了增删改操作,那么必须将block的status上报到blockManagerMaster上,会对指定blockManager的blockManagerInfo内部的blockStatus进行增删改操作,从而达到元数据的维护功能。