DataFrame与Spark SQL的由来

最新推荐文章于 2024-09-01 00:00:00 发布

Shyllin

最新推荐文章于 2024-09-01 00:00:00 发布

阅读量358

点赞数

分类专栏： Spark 文章标签： spark sql 大数据

本文链接：https://blog.csdn.net/shyllin/article/details/128956707

版权

Spark 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

文章讲述了DataFrame作为RDD的替代，如何通过携带Schema和使用DSL算子为Spark优化打开新空间。SparkSQL的Catalyst优化器在逻辑和物理阶段进行优化，而Tungsten则涉及数据结构（UnsafeRow）和执行代码的优化，提升性能。全阶段代码生成（WSCG）进一步减少调用开销。

摘要由CSDN通过智能技术生成

文章目录

- DataFrame与Spark SQL的由来

DataFrame与Spark SQL的由来

Spark 已经有了 RDD 这个开发入口，为什么还要整出个 DataFrame 来呢？

RDD 之殇：优化空间受限

高阶函数，它指的是形参为函数的函数，或是返回类型为函数的函数。高阶函数，首先本质上也是函数，特殊的地方在于它的形参和返回类型。

RDD算子(如 map、filter等)都需要一个辅助函数 f 来作为形参，通过调用 map(f)、filter(f) 才能完成计算。Spark 只知道开发者要做 map、filter，但并不知道开发者打算怎么做 map 和 filter。

**在 RDD 的开发框架下，Spark Core 只知道开发者要“做什么”，而不知道“怎么做”。**这让 Spark Core 两眼一抹黑，除了把函数 f 以闭包的形式打发到 Executors 以外，没有额外的优化空间。

DataFrame 横空出世

针对 RDD 优化空间受限的问题，Spark 社区在 1.3 版本发布了 DataFrame。相比 RDD，DataFrame 到底有何不同呢？我们不妨从两个方面来对比它们的不同：一个是数据的表示形式（Data Representation），另一个是开发算子。

数据表示形式

DataFrame 与 RDD 一样，都是用来封装分布式数据集的。DataFrame 是携带数据模式（Data Schema）的结构化数据，而 RDD 是不携带Schema 的分布式数据集。恰恰是因为有了 Schema 提供明确的类型信息，Spark 才能有针对性地设计出更紧凑的数据结构，从而大幅度提升数据存储与访问效率。

开发算子

RDD 算子多采用高阶函数，高阶函数的优势在于表达能力强，它允许开发者灵活地设计并实现业务逻辑。而 DataFrame 的表达能力却很弱，它定义了一套 DSL 算子（Domain Specific Language），如select、filter、agg、 groupBy等等，它们都属于 DSL 算子。

尽管 DataFrame 算子在表达能力方面更弱，但是 DataFrame 每一个算子的计算逻辑都是确定的，比如 select 用于提取某些字段，groupBy 用于对数据做分组，等等。因此，Spark 可以基于启发式的规则或策略，甚至是动态的运行时信息，去优化 DataFrame 的计算过程。

总结下来，相比 RDD，DataFrame 通过携带明确类型信息的 Schema、以及计算逻辑明确的转换算子，为 Spark 引擎的内核优化打开了全新的空间。

幕后英雄：Spark SQL

首先，Spark Core 特指 Spark 底层执行引擎（Execution Engine）。而 Spark SQL 则凌驾于 Spark Core 之上，是一层独立的优化引擎（Optimization Engine）。Spark Core 负责执行，而 Spark SQL 负责优化，Spark SQL 优化过后的代码，依然要交付 Spark Core 来做执行。

在这里插入图片描述