Spark SQL源码分析之核心流程

最新推荐文章于 2025-05-22 00:30:00 发布

原创

最新推荐文章于 2025-05-22 00:30:00 发布 · 2w 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#spark sql #spark #hadoop #hive #分布式计算

本文详细探讨了Spark SQL的执行流程，从Parse SQL到Execute SQL，包括SqlParser构建logical plan，Analyzer进行语法分析，Optimizer优化，SparkPlanner生成Physical Plan，最后执行SQL并生成RDD。通过分析各个组件的职责，揭示了Spark SQL如何高效地处理SQL查询。

/** Spark SQL源码分析系列文章*/

自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst，到至今1年多了,Spark SQL的贡献者从几人到了几十人，而且发展速度异常迅猛，究其原因，个人认为有以下2点：

1、整合：将SQL类型的查询语言整合到 Spark 的核心RDD概念里。这样可以应用于多种任务，流处理，批处理，包括机器学习里都可以引入Sql。
2、效率：因为Shark受到hive的编程模型限制，无法再继续优化来适应Spark模型里。

前一段时间测试过Shark，并且对Spark SQL也进行了一些测试，但是还是忍不住对Spark SQL一探究竟，就从源代码的角度来看一下Spark SQL的核心执行流程吧。

一、引子

先来看一段简单的Spark SQL程序：

1. val sqlContext = new org.apache.spark.sql.SQLContext(sc)
2. import sqlContext._
3.case class Person(name: String, age: Int)
4.val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt))
5.people.registerAsTable("people")
6.val teenagers = sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")
7.teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

程序前两句1和2生成SQLContext，导入sqlContext下面的all，也就是运行SparkSQL的上下文环境。
程序3，4两句是加载数据源注册table
第6句是真正的入口，是sql函数，传入一句sql，先会返回一个SchemaRDD。这一步是lazy的，直到第七句的collect这个action执行时，sql才会执行。