Spark SQL
文章平均质量分 91
浮世Talk
这个作者很懒,什么都没留下…
展开
-
Spark SQL深入分析之图解五种Join策略的执行流程与应用场景
本文将从原理层面介绍SparkSQL支持的五大连接策略及其适用场景。通过本文的学习,你将会了解Spark SQL中五大连接策略的连接原理,并且学会根据不同的影响因素和不同的需求场景,选择合适的连接策略,从而更好地完成你的工作。转载 2022-11-22 23:39:38 · 574 阅读 · 0 评论 -
Spark SQL深入分析之图解HashAggregateExec & ObjectHashAggregateExec执行流程
这篇文章继续探讨聚合策略,主要介绍Spark SQL提供的两个基于hash的聚合操作符,即HashAggregateExec和ObjectHashAggregateExec。转载 2022-11-22 23:37:44 · 895 阅读 · 0 评论 -
Spark SQL深入分析之图解SortAggregateExec执行流程
不像基于hash的聚合需要一个hash map来保存所有的缓存键值对(如grouping key -> aggregate value),SortBasedAggregationIterator只需要保存当前聚合组的聚合缓存,因此,仅需一行就足够了。SortAggregateExec使用了一种基于排序的聚合方法,该方法要求通过分组键对行进行排序,以便将具有相同分组键的行放置在一起。中我们知道,一个逻辑聚合运算符可以转化为由多个物理聚合阶段组成的物理计划,聚合策略会根据聚合表达式的类型来规划物理聚合计划。转载 2022-11-22 23:36:23 · 771 阅读 · 0 评论 -
Spark SQL深入分析之图解Aggregation策略工作流程
Aggregation策略根据聚合表达式的类型来规划逻辑聚合运算符的物理执行计划。转载 2022-11-22 23:33:53 · 402 阅读 · 0 评论