7，spark源码分析-sparkSQL任务提交

最新推荐文章于 2024-01-09 17:37:02 发布

北方~

最新推荐文章于 2024-01-09 17:37:02 发布

阅读量1.1k

点赞数 1

分类专栏： spark 大数据文章标签： spark hive big data

本文链接：https://blog.csdn.net/strawhat2416/article/details/120142725

版权

34 篇文章 4 订阅

订阅专栏

14 篇文章 3 订阅

订阅专栏

在这里插入图片描述
大概有6步：

我们以spark源代码的例子来说。
在这里插入图片描述

在使用hive的场景下，会使用spark.sql.catalogImplementation=hive. 后续会初始化HiveExternalCatalog, HiveSessionStateBuilder
在这里插入图片描述

看一下这个类的结构。

初始化HiveExternalCatalog, 所有与hive相关的CRUD都是通过这个类来完成的。
resourceLoader 资源加载器，主要初始化加载HiveClient -HiveSessionResourceLoader 主要和架子啊jar包有关系。包括一些第三方jar。
HiveSessionCatalog 主要和UDF有关。加载UDF就需要这个类
HiveMetastoreCatalog 主要和hive-metastore的元数据信息有关。
analyzer 解释器的一些规则初始化，里面包含了一些比较重要的规则，DataSourceAnalysis, HiveAnalysis,这些会在后面讲。
optimizer 优化器，包含了一个PruneHiveTablePartitions。主要是下推到hive执行的优化器。
planner 物理执行计划，包含了一个HiveTableScans。

在这里插入图片描述

SessionState是sparkSession中一个重要的类。
如果使用hive 就会实例化HiveSessionStateBuilder。
在这里插入图片描述

在这个地方对SessionState进行了实例化，说一下里面几个比较重要的参数

在这里插入图片描述

包含一些在session之间共享的状态。

warehousePath 默认是加载hive-site.xml /app/hive/wareshouse
cacheManager 缓存，主要存储一些查询的结果已被后续使用。
externalCatalog 默认实例化HiveExternalCatalog，增加了ExternalCatalogEventListener事件的监听器，所有CRUD操作均可以获取到。这个可以作为扩展程序使用。
globalTempViewManager 临时view的管理器。