Spark中的Lineage血统

最新推荐文章于 2022-07-28 10:29:11 发布

lds_include

最新推荐文章于 2022-07-28 10:29:11 发布

阅读量637

点赞数 1

分类专栏：大数据 Spark 文章标签： Spark中的Lineage血统大数据的spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lds_include/article/details/89205952

版权

大数据同时被 2 个专栏收录

70 篇文章 4 订阅

订阅专栏

21 篇文章 0 订阅

订阅专栏

Spark中的Lineage血统

说明

RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（即血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

体现过程

RDD在计算过程中，如果有一个RDD的分区信息丢失，该RDD会首先判断是否做个缓存，如果做过缓存，则直接取出缓存的数据，如果没有缓存，就判断是否做过checkpoint，如果没有checkpoint，则从父的RDD的分区开始重新计算，其他分区都不用重新计算，这样既保证了容错性，又提高了运算效率。

区别

在任务计算过程中，如果其中一个Executor宕掉了，会由worker重新启动一个新的executor继续完成剩余的任务，如果某一个Worker宕掉了，此时的master不会重新启动新的worker，会把宕掉的worker没有完成的任务重新分配给其他worker进行计算，这个过程和lineage是没有关系的，这是属于集群的容错机制。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。