《深入理解Spark：核心思想与源码分析》2次印刷修订内容清单

泰山不老生

于 2016-06-13 17:44:51 发布

阅读量5.7k

点赞数 1

分类专栏：大数据 Spark Scala 文章标签： Scala spark CheckPoint 源码勘误

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/beliefer/article/details/51657146

版权

大数据同时被 3 个专栏收录

77 篇文章 6 订阅

订阅专栏

68 篇文章 8 订阅

订阅专栏

49 篇文章 0 订阅

订阅专栏

前言

自从《深入理解Spark：核心思想与源码分析》一书出版以来，陆续收到很多读者的反馈，笔者为此在第1版第2次印刷之前做了一些勘误。为便于购买了老版本书籍的读者查漏补缺，现将勘误内容整理如下。

勘误内容

1、第20页第11行 “中间输出和结果存储在HDFS”改为了“中间输出和结果存储在磁盘”（如图1所示）；

图1

2、第20页第12行 “读写HDFS造成”改为了“读写磁盘造成”（如图1所示）；

3、第22页第14行 “要选择Java作为”改为了“要选择Scala作为”（如图2所示）；

图2

4、第64页代码清单3-41标题中的“ExecutorLIRLClassLoader的实现”改为了“ExecutorURLClassLoader的实现”（如图3所示）;

图3

5、第123页图4-8 在判断“失败达到最大次数？”与“开始复制”之间加有向箭头，表示当复制失败未达到最大次数还有继续进行复制（如图4所示）；

图4

6、第148页在解释defaultPartitioner的功能实现的第1）步中，将“partitions_"改为了“partitions"（如图5所示）；

图5

7、第149页在”方法“与”实际“之间增加”首先从CheckPoint（检查点）中获取分区信息。如果还没有设置过CheckPoint，则“（如图6所示）；

图6

8、第149页在MappedRDD前加入”检查点的内容请参阅http://blog.csdn.net/beliefer/article/details/51206980“（如图6所示）；

9、第153页在”dagScheduler的runJob，“后加入”最后当dagScheduler的runJob方法执行完毕后，会调用RDD的doCheckPoint方法保存检查点。有关检查点的具体分析请参阅http://blog.csdn.net/beliefer/article/details/51206980“（如图7所示）。

图7

10、第158页在”获取RDD的所有Dependency的序列。“后加入”可以看到dependencies方法首先从CheckPoint中获取Dependency，如果尚未设置检查点意味着此Job此前还未执行成功或者未执行，那么调用getDenpencies方法获取依赖。有关检查点的内容请参阅http://blog.csdn.net/beliefer/article/details/51206980“（如图8所示）；

图8

泰山不老生

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。