oracle执行计划broadcast,Greenplum执行计划

Greenplum执行计划和pg中的类似,但是由于gp是分布式的shared nothing架构,所以执行计划必然和pg还是有些区别。

gp中查看SQL的执行计划也是通过explain语句,语法如下:

Command: EXPLAIN

Description: show the execution plan of a statement

Syntax:

EXPLAIN [ ANALYZE ] [ VERBOSE ] statement

相较于pg中explain语句选项较少,只有analyze和verbose两个可选项,作用分别是:

analyze:执行命令并显示实际时间。

verbose:显示查询树内部的实际结构,而不是简单的概要。https://www.cndba.cn/foucus/article/3883https://www.cndba.cn/foucus/article/3883

分布式执行计划:

gp中的shared nothing架构特点为:底层数据完全不共享、每个segment只有部分数据、所有节点都过网络连接起来。

—重分布与广播

因为gp中的数据分布在不同的segment中,因此如何将数据汇聚起来就显得很关键,这便设计到了数据的迁移,即重分布和广播。

广播:将每个segment上的一张表数据全部发送给所有segment,这样相当于每个segment都有全量的数据。

重分布:当需要跨库关联和聚合的时候,当数据无法满足广播的条件,这个时候gp就会选择重分布数据,选择新的分布键(关联键)来将数据重新打散重新分布到所有segment上。

https://www.cndba.cn/foucus/article/3883

https://www.cndba.cn/foucus/article/3883

分布式执行计划中相比pg中的执行计划多了一些不同的术语,分别是:

1、Gather Motion (N:1)

聚合操作,将N个节点上的数据聚合到同一个节点。

https://www.cndba.cn/foucus/article/3883

https://www.cndba.cn/foucus/article/3883

postgres=# EXPLAIN select * from t3 join t2 on t3.id=t2.id+100 limit 10;

QUERY PLAN

--------------------------------------------------------------------------------------------------------------------

Limit (cost=24028.00..24028.69 rows=10 width=74)

-> Gather Motion 2:1 (slice2; segments: 2) (cost=24028.00..24028.69 rows=10 width=74)

-> Limit (cost=24028.00..24028.49 rows=5 width=74)

-> Hash Join (cost=24028.00..72660.00 rows=500000 width=74)

Hash Cond: (t2.id + 100) = t3.id

-> Redistribute Motion 2:2 (slice1; segments: 2) (cost=0.00..31132.00 rows=500000 width=37)

Hash Key: t2.id + 100

-> Append-only Columnar Scan on t2 (cost=0.00..11132.00 rows=500000 width=37)

-> Hash (cost=11528.00..11528.00 rows=500000 width=37)

-> Append-only Scan on t3 (cost=0.00..11528.00 rows=500000 width=37)

Optimizer status: legacy query optimizer

(11 rows)

2、Broadcast Motion(N:N)

广播,将每一节点上的一张表数据全部分发给所有segment。

3、Redistribute Motion(N:N)

重分布,将数据重新打散重新分布到所有segment上。一般常发生在:关联、group by、开窗函数等情况下。

https://www.cndba.cn/foucus/article/3883

4、Slice

切片。gp在实现分布式执行计划时,会将SQL拆成多个slice,每个slice就是单库执行的一部分SQL。

https://www.cndba.cn/foucus/article/3883https://www.cndba.cn/foucus/article/3883https://www.cndba.cn/foucus/article/3883

版权声明:本文为博主原创文章,未经博主允许不得转载。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark SQL 是 Apache Spark 生态系统中的一个组件,它提供了用于处理结构化数据的 API。Spark SQL 的执行源码解读主要包括以下几个方面: 1. 解析器(Parser):Spark SQL 使用开源项目 ANTLR 生成的解析器来将 SQL 语句解析为抽象语法树(AST)。该解析器支持 ANSI SQL 标准,可以将 SQL 语句转换为内部的逻辑计划。 2. 优化器(Optimizer):Spark SQL 使用 Catalyst 优化器来对 AST 进行一系列的优化操作。其中包括常量折叠、谓词下推、投影下推等优化规则。通过这些优化规则,Spark SQL 可以将逻辑计划转换为更高效的物理计划。 3. 物理计划生成(Physical Plan Generation):一旦逻辑计划优化完成,Spark SQL 就会根据数据的存储格式和分布式计算模型生成物理计划。这个过程包括将逻辑计划转换为数据流图、选择最优的执行策略(如 Shuffle 与 Broadcast Join)等。 4. 执行引擎(Execution Engine):Spark SQL 的执行引擎负责将物理计划转换为可执行的任务,并在集群上执行这些任务。Spark SQL 支持两种执行模式:本地模式和集群模式。在本地模式下,Spark SQL 会在单个节点上执行任务;而在集群模式下,Spark SQL 会将任务分布到多个节点上进行并行计算。 5. 数据存取(Data Access):Spark SQL 支持多种数据源的读取和写入操作。它可以直接读取 Hadoop 分布式文件系统(HDFS)上的数据,还可以通过适配器支持其他数据存储系统,如 Apache Hive、Apache HBase、MySQL 等。 总的来说,Spark SQL 的执行源码解读涵盖了解析器、优化器、物理计划生成、执行引擎以及数据存取等方面的内容。通过深入了解这些内容,可以更好地理解 Spark SQL 的内部工作原理,并对其进行二次开发和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值