深入理解spark－rdd详解

最新推荐文章于 2024-05-26 17:05:19 发布

weixin_30437481

最新推荐文章于 2024-05-26 17:05:19 发布

阅读量107

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/yankang/p/9826140.html

版权

1.我们在使用spark计算的时候，操作数据集的感觉很方便是因为spark帮我们封装了一个rdd（弹性分布式数据集Resilient Distributed Dataset）；

那么rdd数据本身是如何存储的呢，又是如何调度读取的？

spark大部分时候都是在集群上上运行的，那么数据本身一定是也是分布式存储的，数据是由每个Excutor的去管理多个block的，而元数据本身是由driver的blockManageMaster来管理，当每个excutor创建的时候也会创建相对应的数据集管理服务blockManagerSlave，当使用某一些block时候，slave端会创建block并向master端去注册block，同理删除某些block时候，master向slave端发出申请，再有slave来删除对应的block数据。由此可见，实际上物理数据都excutor上，数据的关系管理由driver端来管理。

rdd架构图如下：

未完待续。。。。。

转载于:https://www.cnblogs.com/yankang/p/9826140.html

weixin_30437481

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入理解spark－rdd详解

1.我们在使用spark计算的时候，操作数据集的感觉很方便是因为spark帮我们封装了一个rdd（弹性分布式数据集Resilient Distributed Dataset）；那么rdd数据本身是如何存储的呢，又是如何调度读取的？spark大部分时候都是在集群上上运行的，那么数据本身一定是也是分布式存储的，数据是由每个Excutor的去管理多个block的，而元数据本身是由dr...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。