spark2.2.0源码学习
猫耳山大王
不可一日无书,不可气量如鼠
展开
-
spark2.2.0源码学习过程记录:Day7
1、读《apache spark 源码剖析》第四章第3节、第五章上面读的这些部分中,暂时只关心第五章部署方式分析中的第4节的内容(5.4 原生集群Standalone Cluster),所以就一直读到了这章结束,下面开始看源码2、源码学习Standalone Cluster方式启动集群时,只要有两条线:Master、Worker(其中还有Executor的启动)Ma原创 2017-09-09 18:12:24 · 333 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day5
1、读《apache spark 源码剖析》第四章第2.3节任务的创建和分发2、源码学习类DAGScheduler首先看DAGScheduler类的submitMissingTasks方法,方法中首先取得了需要计算的partitions然后根据stage的类型(ShuffleMapStage或ResultStage)使用outputCommitCoordin原创 2017-09-02 16:07:46 · 315 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day4
1、读《apache spark 源码剖析》第四章第1节作业提交我也使用简单的WordCount例子sc.textFile("/hdfs-site.xml").flatMap(line=>line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)来学习2、源码学习把例子像书中一样分成了几个子句,在命令行中敲了一下,看看转原创 2017-09-02 16:07:21 · 365 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:序
因为之前并没有系统学习过某个项目源码,为了能更流畅的进入到学习状态,更高效的学习,决定一边看《apache spark源码剖析》一边学习。希望可以写成一个系列博客,这个博客并不会去分析spark的源码实现架构等等高深的问题,只是如实的做一个自己学习的记录,以供以后参考。原创 2017-08-26 22:44:40 · 385 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day1 Day2
Day1就像上学时候第一节课都不是正式上课,我第一天的学习也只是看了一些博客,以及《apache spark 源码剖析》的前面两张(概念介绍和环境搭建等)1、先看博客,有总体感觉,预热http://www.cnblogs.com/hframe/p/6735123.html2、看《apache spark 源码剖析》第一章、第二章Day2第二天开始看源原创 2017-08-26 22:57:50 · 552 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day3
Day31、读《apache spark 源码剖析》第三章第3.2节、3.3节因为3.3节的内容是是讲repl的,我暂时并不关系,所以这部分内容看看书就可以了而3.2节的内容是讲SparkContext的初始化,比较重要,这部分要看完书后自己再看下源码2、源码学习书中3.2节讲的是SparkContext的初始化,但是我学习的版本是2.2.0,初始化是Spark原创 2017-09-02 16:05:42 · 1588 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day10
1、读《apache spark 源码剖析》第七章第2节接着昨天的来2、源码学习DataSet中的ofRows方法调用了sparkSession.sessionState.executePlan,返回一个QueryExecution对象类SessionState类注释A class that holds all session-specific state in原创 2017-09-09 18:13:57 · 396 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day9
由于工作原因,今天需要学习一下FileSystem等类类FileSystem通用的文件系统,他主要有两个实现LocalFileSystem、DistributedFileSystem,分别是本地文件系统和hdfs文件系统使用Cache类来存放已经创建过的FileSystem以复用他们使用statisticsTable来统计每个FileSystem类的统计信息(文件系统中有多原创 2017-09-09 18:13:15 · 354 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day8
1、《apache spark 源码剖析》浏览第六、七、八、九章后面的几章中只准备学习其中的spark sql部分,所以首先全部浏览了一下,再回过头来看第七章2、读《apache spark 源码剖析》第七章第1节、第2.1节SQL语句在分析执行过程中会经理几个步骤:(1)语法解析。(2)操作绑定。(3)优化执行策略。(4)交付执行。3、源码学习从书中看出入口类原创 2017-09-09 18:12:45 · 1172 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day6
1、读《apache spark 源码剖析》第四章第2节2.4任务执行、2.5节Checkpoint和Cache、2.6节WebUI和Metrics由于后面两个小节我目前并不关心,所以暂时只读一下就好2、源码学习类Executor顺序读这个类,很快看到launchTask方法,这个方法创建一个TaskRunner,然后放到runningTasks队列中,然后使用th原创 2017-09-02 16:08:24 · 373 阅读 · 0 评论