海胜专访--MaxCompute 与大数据查询引擎的技术和故事

最新推荐文章于 2021-08-17 10:27:44 发布

开发者社区小百科

最新推荐文章于 2021-08-17 10:27:44 发布

阅读量309

点赞数

分类专栏：阿里云开发者社区文章标签：分布式计算 MaxCompute SQL

本文链接：https://blog.csdn.net/lsj960922/article/details/97390112

版权

阿里云开发者社区专栏收录该内容

48 篇文章 4 订阅

订阅专栏

简介： 在2019大数据技术公开课第一季《技术人生专访》中，阿里巴巴云计算平台高级技术专家苑海胜为大家分享了《MaxCompute 与大数据查询引擎的技术和故事》，主要介绍了MaxCompute与MPP Database的异同点，分布式系统上Join的实现，且详细讲解了MaxCompute针对Join和聚合引入的Hash Clustering Table和Range Clustering Table的优化。

摘要：在2019大数据技术公开课第一季《技术人生专访》中，阿里巴巴云计算平台高级技术专家苑海胜为大家分享了《MaxCompute 与大数据查询引擎的技术和故事》，主要介绍了MaxCompute与MPP Database的异同点，分布式系统上Join的实现，且详细讲解了MaxCompute针对Join和聚合引入的Hash Clustering Table和Range Clustering Table的优化。

以下内容根据演讲视频以及PPT整理而成。

一、MaxCompute VS MPP Database
MaxCompute 与 MPP Database有非常大的不同，主要体现在性能（Performance）、成本（Cost）、可扩展性（Scalability）及灵活性（Flexibility）等度量纬度。

性能（Performance）：作为一个数据仓库，大家首先关心的指标是性能。MPP Database典型的产品有Greenplum，Vertica和Redshift等，它们主要针对的在线实时数据的分析，性能要求一般是毫秒级别。而MaxCompute多数场景应用在离线数据下，MaxCompute需要动态的拉起进程和数据封装，如果进行MapReduce还涉及数据落地，所以离线数据的分析会比较慢，这也导致MaxCompute无法适用于实时场景。但在大量数据场景下，MaxCompute会展示出优势，它可以动态调整Instance数量，保证有足够多的Instance处理数据。而MPP Database一旦开启了固定的Cluster和Node之后，数据量较大时会受到集群计算资源的限制。
成本（Cost）：MaxCompute在cost层面占较大优势。首先，数据存储在阿里云上，计算部分也只需要为所付出的计算资源付费，不计算时只需为存储资源付费。而MPP Database一旦开启一定的资源，即使不使用也需要付费。
可扩展性（Scalability）：阿里云在起初也使用过MPP Database，MPP Database刚开始就设定了固定的cluster，但是由于阿里云内部的业务数据在不断的增加，导致计算资源严重不足。MaxCompute可以动态分配资源，根据计算的复杂度实时调整Instance数量，保证较高的可扩展性。
灵活性（Flexibility）：MaxCompute不仅可以处理SQL的查询，还可以处理MapReduce，以及能够查询Machine Learning节点。由于MaxCompute的高扩展性和灵活性，它可以支持阿里云内部95%的数据计算，承载的任务也非常多。

二、分布式系统上Join的实现
Query Plan Generation流程：首先用户会提交SQL给Parser，Parser将其编译成Relation节点，然后将Relation的节点交给优化器Optimizer，经过一系列的优化，其中包括根据物理转化和逻辑转化。Cost model从中选择代价最低的物理的执行计划。Transformer将最优的计划转成Physical Operator tree，并且将Physical Operator tree交给Manager。Manager启动实例，并交给RunTime执行此次query。这过程中，Cost model从Metadata中获取统计信息（如表的宽度和行数），来选择最优的计划，Apache Calcite被用来作用于Optimizer的框架。

Optimizer Core Components：逻辑运算符（Logical Operator）主要描述要做哪些事情，如LogicalInnerJoin做InnerJoin， LogicalScan做扫描，LogicalFilter做过滤。物理运算符（Physical Operator）主要描述怎么做，如HashJoin，MergeJoin及NLJoin代表不同的算法，IndexScan表示索引扫描，TableScan是全标扫描，PhysicalFilter是物理过滤器。逻辑运算符（Logical Operator）可以通过Logical Transformation Rules转化为新的逻辑运算符，还可以通过Logical Implementation Rules转化成物理运算符，如从InnerJoin转化成HashJoin。另外，物理运算符（Physical Operator）可以通过属性的强化（Physical Property Enforcement）产生新的物理运算符（Physical Operator），如通过Distribution满足分布的属性，通过Sort满足排序的属性。

下图展示了MaxCompute如何生成一个Join Plan。首先，Inner Join通过PartitionedJoinRule产生物理的plan，既Sort Merge Join，它存在盘古系统中，不满足分布的属性，所以MaxCompute需要进行Exchange。

也就是按照T1.a和T2.b进行Shuffle，Shuffle之后进行Sort Merge。有相同T1.a的值和T2.b的值会分在同一个bucket中。不同的bucket启动多个Instance，每个Instance处理每个bucket，从而进行分布式计算。其中在Shuffle时占用了较多的资源，它不仅有数据的读写，还包括排序。如何尽量减少排序从而加快数据处理速度是优化的关键。

假设T1或T2较小，那么可以将T2的全表广播到T1进行Hash Join，好处是T1不需要多次Shuffle，T2也不需要进行Hash计算和排序。这时Join Plan只包含两个stage，M2 stage对T2进行扫描，之后广播到T1。T1不需要进行Shuffle，使用T2全表的数据建Hash表，再通过T1部分数据进行Hash Build，最后得到Hash Join的结果。