Spark源代码剖析书籍推荐
《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。
《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。
最近很多人让推荐Hadoop 2.0和Spark学习资料,今天汇总一下我学习这两套系统过程中的参考资料,供大家参考。我把这些资料分成了若干级别,不同层次的人可查阅不同层次的资料。
(1)初学者
对于初学者而言,保证最初知识的准确性尤为重要,如果刚开始获取的知识不准确,一旦根深蒂固以后将很难纠正,而且很长时间内将伴随着你,误导着你。鉴于以上考虑,我主要推荐官方网站上的相关文档,具体如下:
【Hadoop 2.0 】
Apache 版本:http://hadoop.apache.org/docs/r2.2.0/
CDH版本:
http://cloudera.com/content/support/en/documentation/cdh4-documentation/cdh4-documentation-v4-4-0.html
HDH版本:http://hortonworks.com/products/hdp-2/#documentation
注:以上几个版本基本使用和配置方法是一致的,可以相互参考,区别不大。
【Spark】
http://spark.incubator.apache.org/documentation.html
如果你的英文不够好,建议你逐步阅读这些文档,保证一手的学习资源非常重要。
(2)中高级学者
对于中高级学者,对知识的准确性有一定的判别能力和验证能力,因此会推荐一些中文资料,但仍以英文为主。
【Hadoop 2.0 】
博客:
Hortonworks博客:http://hortonworks.com/blog/
我的博客:https://my.oschina.net/BigDataInterchange/
三本书籍:
Fast Data Processing with Spark:这本书大陆还没有,网上也没有电子版,只有前几章试读。
“Apache Hadoop YARN:Moving beyondMapReduce and Batch Processing” ,YARN leader Arun Murthy写的一本关于YARN的书籍,目前只有前两章试读(还在编写中,预定明年12月份出版)
《Hadoop技术内幕:深入解析YARN架构设计与实现原理》,该书从基本原理到内部实现,全方位介绍了Hadoop 2.0中资源管理系统YARN。具体介绍可登陆官方宣传网站:http://hadoop123.com/。
电子文档:
“Hadoop 0.23 MRv2分析”,由百度工程师编写,他的新浪微博:@大数据的wm,邮箱:infcollector@gmail.com
“Architecture of Next Generation Apache Hadoop MapReduceFramework”,这份资料来自Hadoopjira,系统全面的介绍了MRv2/YARN的来源、架构和一些内部实现细节。
Hadoop jira:
Hadoop jira是最好的学习资料,里面有大量的PDF文档、栩栩如生的对话和探讨,建议每天都读Hadoop jira,养成习惯,并参与讨论。
HDFS jira:https://issues.apache.org/jira/browse/HDFS
MapReduce jira:https://issues.apache.org/jira/browse/MAPREDUCE
YARN jira:https://issues.apache.org/jira/browse/YARN
会议及PPT:
http://spark-summit.org/
http://hadoopsummit.org/
很多PPT都放在slideshare上,需要翻墙。因此,为了能够更好的学习Hadoop,需具备翻墙能力。