Spark Catalog深入理解与实战

鸨哥学JAVA

已于 2022-09-09 10:39:04 修改

阅读量1.5k

点赞数

分类专栏： Java 程序员编程文章标签： spark hive 大数据

于 2022-09-09 10:38:58 首次发布

本文链接：https://blog.csdn.net/Cr1556648487/article/details/126778344

版权

本文深入探讨了Spark如何识别和访问Hive数据源，涉及到SessionCatalog、ExternalCatalog以及它们在新数据源（DataSourceV2）背景下的演进。重点讲解了V2SessionCatalog与SessionCatalog的区别，并通过Spark Iceberg的实现阐述了如何扩展Catalog以支持复杂数据源管理。文章还提到了SparkCatalog在数据湖场景中的应用和优势。

摘要由CSDN通过智能技术生成

写过Spark应用程序的同学都知道，通过下面这段代码就可以加载和访问外部Hive数据源：

SparkSession.builder().

        appName(TestSparkHive.class.getSimpleName()).

        master("local[*]").

        enableHiveSupport().

        getOrCreate();

List<Row> list= spark.sql("show databases").collectAsList();

也许你会好奇，它是怎么找到并访问外部Hive数据源的？

其实，Spark识别Hive，也是需要依赖Hive配置项的，配置项的来源可以是$HIVE_HOME环境变量，也可以从Spark的运行环境的classpath下加载Hive相关的配置文件。

创建对Hive外部数据源的访问，不得不提到Spark的两个类：SessionCatalog和ExternalCatalog。前者是对后者的封装，对外部数据源的访问都是通过ExternalCatalog实现。而ExternalCatalog是一个Trait类型，提供了对表、函数和分区的增删改查基本接口。对Hive数据源来讲，分别继承上述两个类，提供了具体的实现：HiveSessionCatalog和HiveExternalCatalog。

随着新数据源（Spark中称为DataSourceV2）的出现，原来的SessionCatalog暴露出弊端和不足，为了适应新的数据源特性，Spark推出了新的接口：CatalogPlugin，因为属于顶层接口，CatalogPlugin本身很简单，只有3个方法：

public interface CatalogPlugin {

  void initialize(String name, CaseInsensitiveStringMap options);

  String name();

  default String[] defaultNamespace() {

    return new String[0];

  }

}

实现自定义Catalog，既可以直接实现CatalogPlugin，也可以扩展TableCatalog接口，TableCatalog扩展了CatalogPlugin并提供了表操作相关功能的接口。同理，实现函数相关的Catalog，也可以直接扩展FunctionCatalog，因为它提供了函数管理相关的接口。同SessionCatalog相对应，CatalogPlugin接口体系也实现了V2SessionCatalog，整个CatalogPlugin类体系表示为下图所示：