GaussDB SQL调优：选择合适的分布列

最新推荐文章于 2024-08-01 00:57:52 发布

Gauss松鼠会

最新推荐文章于 2024-08-01 00:57:52 发布

阅读量933

点赞数 34

分类专栏： GaussDB经验总结文章标签： gaussdb sql 数据库 GaussDB 华为云

本文链接：https://blog.csdn.net/GaussDB/article/details/136314220

版权

GaussDB经验总结专栏收录该内容

103 篇文章 57 订阅

订阅专栏

本文介绍了GaussDB的特性，特别是如何通过合理选择分布列进行SQL性能调优，以减少数据通信并提升查询效率。学习者将体验一个实际案例，展示分布列对查询优化的关键作用。

摘要由CSDN通过智能技术生成

一、背景

GaussDB是华为公司倾力打造的自研企业级分布式关系型数据库，该产品具备企业级复杂事务混合负载能力，同时支持优异的分布式事务，同城跨AZ部署，数据0丢失，支持1000+扩展能力，PB级海量存储等企业级数据库特性。

二、将会学到什么

在这个Codelabs中，您将体验GaussDB通过选择合适的分布列来达到性能调优的实际案例。

三、SQL调优指南

SQL调优的唯一目的是“资源利用最大化”，即CPU、内存、磁盘IO、网络IO四种资源利用最大化。所有调优手段都是围绕资源使用开展的。所谓资源利用最大化是指SQL语句尽量高效，节省资源开销，以最小的代价实现最大的效益。比如做典型点查询的时候，可以用seqscan+filter(即读取每一条元组和点查询条件进行匹配)实现，也可以通过indexscan实现，显然indexscan可以以更小的代价实现相同的效果。

1、选择合适的分布列

a.现象描述

表定义如下：

CREATE TABLE t1 (a int, b int);
CREATE TABLE t2 (a int, b int);

执行如下查询：

SELECT * FROM t1, t2 WHERE t1.a = t2.b;

b.优化分析

如果将a作为t1和t2的分布列：

CREATE TABLE t1 (a int, b int) DISTRIBUTE BY HASH (a);
CREATE TABLE t2 (a int, b int) DISTRIBUTE BY HASH (a);

则执行计划将存在“Streaming”，导致DN之间存在较大通信数据量，如图1所示。

如果将a作为t1的分布列，将b作为t2的分布列：

CREATE TABLE t1 (a int, b int) DISTRIBUTE BY HASH (a);
CREATE TABLE t2 (a int, b int) DISTRIBUTE BY HASH (b);

则执行计划将不包含“Streaming”，减少DN之间存在的通信数据量，从而提升查询性能，如图2所示。

祝贺您，您已经成功地完成了GasssDB通过选择合适的分布列来达到性能调优全流程体验。

总结

GaussDB同时拥有云上高可用，高可靠，高安全，弹性伸缩，一键部署，快速备份恢复，监控告警等关键能力，能为企业提供功能全面，稳定可靠，扩展性强，性能优越的企业级数据库服务。

GaussDB分布式形态整体架构如下：

欢迎大家交流~

Gauss松鼠会

关注

34
点赞
踩
35

收藏

觉得还不错? 一键收藏
打赏
23
评论
GaussDB SQL调优：选择合适的分布列

GaussDB是华为公司倾力打造的自研企业级分布式关系型数据库，该产品具备企业级复杂事务混合负载能力，同时支持优异的分布式事务，同城跨AZ部署，数据0丢失，支持1000+扩展能力，PB级海量存储等企业级数据库特性。
复制链接

扫一扫