Spark-SQL 查看执行计划API

举个例子:

scala>spark.sql(“select count(1) as nums from gdm.gdm_m03_glb_item_sku_da where dt = ‘2020-06-08’”).explain(true)
在Spark.sql()方法后加 explain,入参为true
返回类型为Unit

// 解析逻辑执行计划

== Parsed Logical Plan ==
'Project ['count(1) AS nums#464]
± 'Filter ('dt = 2020-06-08)
± 'UnresolvedRelation gdm.gdm_m03_glb_item_sku_da

// 分析逻辑执行计划

== Analyzed Logical Plan ==
nums: bigint
Aggregate [count(1) AS nums#464L]
± Filter (dt#582 = 2020-06-08)
± SubqueryAlias gdm.gdm_m03_glb_item_sku_da
± Relation[item_sku_id#526,main_sku_id#527,sku_name#528,sku_name_local#529,sku_name_en#530,sku_name_cn#531,sku_valid_flag#532,sku_status_cd#533,item_id#534,item_name#535,item_name_local#536,item_name_en#537,item_name_cn#538,brand_code#539,brand_name_local#540,brand_name_en#541,brand_name_full#542,item_valid_flag#543,item_status_cd#544,data_type#545,coop_type#546,work_post_cd#547,purchaser_erp_acct#548,purchaser_name#549,… 33 more fields] orc

// 优化逻辑执行计划

== Optimized Logical Plan ==
Aggregate [count(1) AS nums#464L]
± Project
± Filter (isnotnull(dt#582) && (dt#582 = 2020-06-08))
± Relation[item_sku_id#526,main_sku_id#527,sku_name#528,sku_name_local#529,sku_name_en#530,sku_name_cn#531,sku_valid_flag#532,sku_status_cd#533,item_id#534,item_name#535,item_name_local#536,item_name_en#537,item_name_cn#538,brand_code#539,brand_name_local#540,brand_name_en#541,brand_name_full#542,item_valid_flag#543,item_status_cd#544,data_type#545,coop_type#546,work_post_cd#547,purchaser_erp_acct#548,purchaser_name#549,… 33 more fields] orc

// 物理执行计划

== Physical Plan ==
*(2) HashAggregate(keys=[], functions=[count(1)], output=[nums#464L])
± Exchange SinglePartition
± *(1) HashAggregate(keys=[], functions=[partial_count(1)], output=[count#584L])
± *(1) Project
± *(1) FileScan orc gdm.gdm_m03_glb_item_sku_da[dt#582] Batched: true, Format: ORC, Location: PrunedInMemoryFileIndex[hdfs://ns111/user/mart_thaaaxa/gdm.db/gdm_m03_glb_item_sku_da/dt=2020-06-08], PartitionCount: 1, PartitionFilters: [isnotnull(dt#582), (dt#582 = 2020-06-08)], PushedFilters: [], ReadSchema: struct<>
testData: Unit = ()

Q:字段后的 # + 数字代表什么意义
A: 当前Session 全局累加 无意义

在这里插入图片描述

Spark SQL 是 Apache Spark 生态系统中的一个组件,它提供了用于处理结构化数据的 APISpark SQL 的执行源码解读主要包括以下几个方面: 1. 解析器(Parser):Spark SQL 使用开源项目 ANTLR 生成的解析器来将 SQL 语句解析为抽象语法树(AST)。该解析器支持 ANSI SQL 标准,可以将 SQL 语句转换为内部的逻辑计划。 2. 优化器(Optimizer):Spark SQL 使用 Catalyst 优化器来对 AST 进行一系列的优化操作。其中包括常量折叠、谓词下推、投影下推等优化规则。通过这些优化规则,Spark SQL 可以将逻辑计划转换为更高效的物理计划。 3. 物理计划生成(Physical Plan Generation):一旦逻辑计划优化完成,Spark SQL 就会根据数据的存储格式和分布式计算模型生成物理计划。这个过程包括将逻辑计划转换为数据流图、选择最优的执行策略(如 Shuffle 与 Broadcast Join)等。 4. 执行引擎(Execution Engine):Spark SQL 的执行引擎负责将物理计划转换为可执行的任务,并在集群上执行这些任务。Spark SQL 支持两种执行模式:本地模式和集群模式。在本地模式下,Spark SQL 会在单个节点上执行任务;而在集群模式下,Spark SQL 会将任务分布到多个节点上进行并行计算。 5. 数据存取(Data Access):Spark SQL 支持多种数据源的读取和写入操作。它可以直接读取 Hadoop 分布式文件系统(HDFS)上的数据,还可以通过适配器支持其他数据存储系统,如 Apache Hive、Apache HBase、MySQL 等。 总的来说,Spark SQL 的执行源码解读涵盖了解析器、优化器、物理计划生成、执行引擎以及数据存取等方面的内容。通过深入了解这些内容,可以更好地理解 Spark SQL 的内部工作原理,并对其进行二次开发和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值