![af859fe4fd0e8e6949517a32abc7135d.png](https://img-blog.csdnimg.cn/img_convert/af859fe4fd0e8e6949517a32abc7135d.png)
郭富杰
数据技术处
GaussDB数据库
调优介绍
分布式查询处理是MPPDB中最核心的技术,关键在于尽量降低查询中节点之间的数据流动,以提升查询效率。GaussDB 200为达成高性能数据分析目标,实现了一套高性能的分布式执行引擎,执行引擎以SQL引擎生成的执行计划为输入,将元组按执行计划的要求进行加工并将结果返回给客户端。
![e902f98dc1dd3abf696ad6be90a4f3c4.png](https://img-blog.csdnimg.cn/img_convert/e902f98dc1dd3abf696ad6be90a4f3c4.png)
图一 分布式查询流程图
运行在CN上的分布式执行引擎实现了分布式执行调度的功能。节点内引入新的执行算子来支撑数据在计算节点之间的流动,这些新的执行算子称其为数据流操作符,根据数据流的输入、输出关系,可以细分为聚合流(Gather)、广播流(Broadcast)和重分布流(Redistribution)。聚合流将数据从多个查询片段聚合到一个。广播流将数据从一个查询片段的数据向多个传输。重分布流则将多个查询片段的数据,按照一定规则重组后向多个传输。
跨计算节点的数据