spark2.2.0源码学习过程记录：Day3

最新推荐文章于 2021-10-05 08:35:40 发布

猫耳山大王

最新推荐文章于 2021-10-05 08:35:40 发布

阅读量1.6k

点赞数

分类专栏： spark2.2.0源码学习

本文链接：https://blog.csdn.net/BLUE__YEAH/article/details/77801831

版权

spark2.2.0源码学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

 
 Day3 

 
 1、读《apache spark 源码剖析》第三章第3.2节、3.3节 

  因为3.3节的内容是是讲repl的，我暂时并不关系，所以这部分内容看看书就可以了 

  而3.2节的内容是讲SparkContext的初始化，比较重要，这部分要看完书后自己再看下源码 

 
 2、源码学习 

  书中3.2节讲的是SparkContext的初始化，但是我学习的版本是2.2.0，初始化是SparkSession，它和SparkContext的关系在后面学习时找出 

  类 org.apache.spark.repl.Main 

  生成sparksession的方法为 createSparkSession 

  首先初始化一些配置， 

  然后创建一个SparkSession.Builder，把配置项传入builder中 

  val builder = SparkSession.builder.config(conf) 

  然后配置对hive的支持，检测spark.sql.catalogImplementation配置项是否为hive；但即使这个配置项值为hive，如果检测到hive的类无法在当前环境加载到，也会回退回in-memory模式。 

  最后，调用builder的getOrCreate方法，创建SparkSession 

  类org.apache.spark.sql.SparkSession.Builder 

  先大致浏览一下这个类 

  options 外部传入的配置 

  extensions SparkSession的扩展类，可以提供方法扩展一些解析器、优化器等 

  userSuppliedContext 用户提供的SparkContext，如果新建SparkSession，会使用 

  然后看getOrCreate方法 

  Get the session from current thread's active session，如果有，把options参数更新进去，返回这个session 

  如果没有，从global session中取，如果有globalSession，把options参数更新进去，返回这个session 

  如果还是没有，则准备新建一个 

  新建SparkSession需要使用SparkContext，如果已经有用户指定的，则使用用户指定的（即上面提到的userSuppliedContext）使用用户传入的userSuppliedContext或者使用SparkContext.getOrCreate方法新建一个 

  如果有配置spark.sql.extensions（这个类配置一个SparkSession扩展类），则使用这个类扩展SparkSession 

  用刚得到的SparkContext和extensions作为构造参数，新建一个SparkSession，并且把这个session设置为global 

  为这个新得到的SparkContext创建一个监听器，在这个SparkContext结束时，清除global session的状态和状态监听器（SQLListener继承自SparkListener） 

  返回刚刚创建的SparkSession（其中包括SparkContext） 

  SparkSession的初始化完成 

  现在知道了SparkContext是作为SparkSession的构造参数，返回了SparkSession，SparkContext应该也是可用的了 

  上面的部分中， SparkContext.getOrCreate(sparkConf)和new SparkSession(sparkContext, None, None, extensions)的源码在接下来分析 

  类org.apache.spark.SparkContext 

  这个类有将近3000行，像上面的例子一样通读一遍再看getOrCreate方法应该也可行，但是我的记忆力笔记差，怕读完后面忘了前面，所以先大概了解一下这个类，把所有能收起的代码块都收起，最后剩下下列几个，从注释上看看他们都是大概做什么用的 

  class SparkContext ：spark功能的主要入口，象征和spark集群的连接，可以用来在集群上创建rdd，广播变量，计数器等。一个jvm只能有一个活动的SparkContext（如果想要多个可以使用classloader） 

  object SparkContext：SparkContext对象包含许多隐式转换和参数 

  object SparkMasterRegex：一些用来解析spark master url串的正则表达式 

  class WritableConverter ： 封装了一些方法，用来把Writable类型转换成T(e.g. `IntWritable` for `Int`)，下面的三个也是 

  object WritableConverter ：封装了一些方法，用来把Writable类型转换成T 

  class WritableFactory：封装了一些方法，用来把Writable类型转换成T 

  object WritableFactory：封装了一些方法，用来把Writable类型转换成T 

  先花5分钟大致浏览了一下class SparkContext 和object SparkContext有哪些方法，然后开始跟getOrCreate方法 

  在跟这个方法前，把object SparkContext类大致浏览一遍 

  getOrCreate方法里线程安全的创建一个SparkContext对象，并且把它标记成活跃SparkContext 

  下面看class SparkContext，这次要从头看了 

  创建事件监听器总线 

  // An asynchronous listener bus for Spark events 

  private[spark] val listenerBus = new LiveListenerBus(this) 

  设定启动spark任务的用户名优先取系统变量SPARK_USER，没有则取hadoop ugi 

  // Set SPARK_USER for user who is running SparkContext. 

  val sparkUser = Utils.getCurrentUserName() 

  初始化内部字段并验证可用性 

  创建JobProgressListener并加入监听器总线 

  创建SparkEnv，创建SparkEnv过程在下一段类分析中说明，可以先看一下 

  创建SparkStatusTracker，作用：Low-level status reporting APIs for monitoring job and stage progress 

  创建spark.ui并且绑定端口 

  创建HeartbeatReceiver用于接收心跳 

  创建schedulerBackend、taskScheduler、dagScheduler并开启taskScheduler 

  取得applicationId，并绑定到sparkui上 

  初始化SparkEnv的blockManager 

  启动metricsSystem 

  启动监听器总线，并且通知“环境已更新”和“应用已经启动”的消息 

  增加ShutdownHook，释放资源，清理系统变量等 

  初始化到此结束，后面的代码基本都是创建rdd以及运行job时用的api 

  小细节： 

  使用了AtomicReference类可以保证原子性地更新一个引用，后面有时间的话学习一下这个类的底层实现，看他提供的api，是一些get、set、update方法等，用法简单明了 

  其中使用了volatile关键字来保证线程安全 

  小细节 

  内部的SparkConf运行时无法改变 

  类org.apache.spark.SparkEnv 

  Holds all the runtime environment objects for a running Spark instance (either master or worker), 

  including the serializer, RpcEnv, block manager, map output tracker, etc 

  创建RpcEnv用于通信 

  val rpcEnv = RpcEnv.create(systemName, bindAddress, advertiseAddress, port, conf, 

  securityManager, clientMode = !isDriver) 

  创建序列化类 

  val serializer = instantiateClassFromConf[Serializer]( 

  "spark.serializer", "org.apache.spark.serializer.JavaSerializer") 

  类似的，创建serializerManager、closureSerializer、broadcastManager、mapOutputTracker等 

  类SparkSession 

  初始化SharedState，session间共享，用于State shared across sessions, including the `SparkContext`, cached data, listener, and a catalog that interacts with external systems. 

  初始化SessionState，session独享，用于State isolated across sessions, including SQL configurations, temporary tables, registered functions, and everything else that accepts a [[org.apache.spark.sql.internal.SQLConf]].If `parentSessionState` is not null, the `SessionState` will be a copy of the parent. 

  取得SqlContext，向下兼容 

  后面的代码基本都是创建DataFram、Dataset以及运行sql时用的api 

  到此为止书中的第三章，也就是SparkSession的初始化过程的源码就学习过了，后面就要学习书的第四章spark作业提交 

猫耳山大王

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark2.2.0源码学习过程记录：Day3

Day31、读《apache spark 源码剖析》第三章第3.2节、3.3节因为3.3节的内容是是讲repl的，我暂时并不关系，所以这部分内容看看书就可以了而3.2节的内容是讲SparkContext的初始化，比较重要，这部分要看完书后自己再看下源码2、源码学习书中3.2节讲的是SparkContext的初始化，但是我学习的版本是2.2.0，初始化是Spark
复制链接

扫一扫

专栏目录