SparkSQL2.0扩展外部数据源原理（读取HDFS文件）

最新推荐文章于 2024-05-10 11:12:39 发布

铁头乔

最新推荐文章于 2024-05-10 11:12:39 发布

阅读量3.1k

点赞数

分类专栏： SparkSQL

本文链接：https://blog.csdn.net/qiaojialin/article/details/80265484

版权

本文详细介绍了SparkSQL如何通过DefaultSource接口读取HDFS上的文件，涉及inferSchema接口用于获取表结构，isSplitable接口判断文件是否可切分，以及buildReader接口构建数据读取方式。此外，还提到了分区列处理、别名和配置序列化等关键点，并提供了一个具体的调用示例。

摘要由CSDN通过智能技术生成

SparkSQL专门为读取HDFS上的文件开的外部数据源接口，spark-parquet、csv、json等都是这种方式。

DefaultSource

入口类，用来建立外部数据源连接，SparkSQL默认会找这个名字，不要改类名。基本所有接口都在这个类里

private[tsfile] class DefaultSource extends FileFormat with DataSourceRegister {

  class TSFileDataSourceException(message: String, cause: Throwable)
    extends Exception(message, cause) {
    def this(message: String) = this(message, null)
  }

  override def equals(other: Any): Boolean = other match {
    case _: DefaultSource => true
    case _ => false
  }

inferSchema接口

返回文件对应的表结构

参数说明：

files是连接的文件，返回SparkSQL的一张表结构。

用xxx代表文件后缀，不同用法对应不同的参数：

通配符指定路径

read.xxx("hdfs:///data/*/*.xxx")

这时files中包括所有匹配到的文件

指定文件夹

read.xxx("hdfs:///data/")

这时files中会包括/data文件夹下的所有文件

指定文件

read.xxx("hdfs:///data/a.xxx")

这时files中就只有一个a.xxx文件

	//返回表结构，StrucType里包含StructField的list，每个StructField是一列
  override def inferSchema(
                            spark: SparkSession,
                            options: Map[String, String],
                            files: Seq[FileStatus]): Option[StructType] = {
    val conf = spark.sparkContext.