Spark SQL之External DataSource外部数据源（二）源码分析

最新推荐文章于 2023-03-19 00:49:28 发布

OopsOutOfMemory

最新推荐文章于 2023-03-19 00:49:28 发布

阅读量1.2w

点赞数

分类专栏： spark 文章标签： spark spark sql catalyst external datasource

本文链接：https://blog.csdn.net/oopsoom/article/details/42064075

版权

上周Spark1.2刚发布，周末在家没事，把这个特性给了解一下，顺便分析下源码，看一看这个特性是如何设计及实现的。

/** Spark SQL源码分析系列文章*/

（Ps: External DataSource使用篇地址：Spark SQL之External DataSource外部数据源（一）示例 http://blog.csdn.net/oopsoom/article/details/42061077）

一、Sources包核心

Spark SQL在Spark1.2中提供了External DataSource API，开发者可以根据接口来实现自己的外部数据源，如avro, csv, json, parquet等等。

在Spark SQL源代码的org/spark/sql/sources目录下，我们会看到关于External DataSource的相关代码。这里特别介绍几个:

1、DDLParser

专门负责解析外部数据源SQL的SqlParser，解析create temporary table xxx using options (key 'value', key 'value') 创建加载外部数据源表的语句。

 protected lazy val createTable: Parser[LogicalPlan] =
    CREATE ~ TEMPORARY ~ TABLE ~> ident ~ (USING ~> className) ~ (OPTIONS ~> options) ^^ {
      case tableName ~ provider ~ opts =>
        CreateTableUsing(tableName, provider, opts)
    }

2、CreateTableUsing

一个RunnableCommand，通过反射从外部数据源lib中实例化Relation，然后注册到为temp table。

private[sql] case class CreateTableUsing(
    tableName: String,
    provider: String,  // org.apache.spark.sql.json 
    options: Map[String, String]) extends RunnableCommand {

  def run(sqlContext: SQLContext) = {
    val loader = Utils.getContextOrSparkClassLoader
    val clazz: Class[_] = try loader.loadClass(provider) catch { //do reflection
      case cnf: java.lang.ClassNotFoundException =>
        try loader.loadClass(provider + ".DefaultSource") catch {
          case cnf: java.lang.ClassNotFoundException =>
            sys.error(s"Failed to load class for data source: $provider")
        }
    }
    val dataSource = clazz.newInstance().asInstanceOf[org.apache.spark.sql.sources.RelationProvider] //json包DefaultDataSource
    val relation = dataSource.createRelation(s

最低0.47元/天解锁文章