Spark SQL之DataFrame

最新推荐文章于 2024-07-07 07:15:00 发布

弗瑞得姆

最新推荐文章于 2024-07-07 07:15:00 发布

阅读量648

点赞数

文章标签： spark 大数据

本文链接：https://blog.csdn.net/aiyin9511/article/details/105594926

版权

Spark SQL的DataFrame提供了一种高效处理结构化数据的方式，它具有RDD的优点并弥补其不足，如类型安全和面向对象编程。DataFrame带有schema元信息，可以进行执行优化。与RDD的主要区别在于DataFrame提供详细的数据结构，支持SQL查询，并通过Catalyst优化器提高性能。DataFrame可以从多种数据源创建，如文本、JSON和Parquet文件。常用操作包括DSL和SQL风格的查询，如过滤、分组、聚合等。

摘要由CSDN通过智能技术生成

	Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优化，使对结构化数据的操作更加高效和方便。
有多种方式去使用Spark SQL，包括SQL、DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎，因此你可以在不同的API之间随意切换，它们各有各的特点，看你喜欢那种风格。

为什么用SparkSQL

	Hive是将Hive SQL转换成MapReduce然后提交到集群中去执行，大大简化了编写MapReduce程序的复杂性，由于MapReduce这种计算模型执行效率比较慢，所以Spark SQL应运而生，它是将Spark SQL转换成RDD，然后提交到集群中去运行，执行效率非常快！

1.易整合
在这里插入图片描述
将sql查询与spark程序无缝混合，可以使用java、scala、python、R等语言的API操作。

2.统一的数据访问

以相同的方式连接到任何数据源。
3.兼容Hive
在这里插入图片描述
支持hiveSQL的语法。

4.标准的数据连接
在这里插入图片描述
可以使用行业标准的JDBC或ODBC连接。

2． DataFrame

DataFrame的前身是SchemaRDD，从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是：DataFrame不再直接继承自RDD，而是自己实现了RDD的绝大多数功能。你仍旧可以在DataFrame上调用rdd方法将其转换为一个RDD。
在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库的二维表格，DataFrame带有Schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型，但底层做了更多的优化。DataFrame可以从很多数据源构建，比如：已经存在的RDD、结构化文件、外部数据库、Hive表。

2.2． DataFrame与RDD的区别

RDD可看作是分布式的对象的集合，Spark并不知道对象的详细模式信息，DataFrame可看作是分布式的Row对象的集合，其提供了由列组成的详细模式信息，使得Spark SQL可以进行某些形式的执行优化。DataFrame和普通的RDD的逻辑框架区别如下所示：
在这里插入图片描述
上图直观地体现了DataFrame和RDD的区别。
左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解 Person类的内部结构
而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么，DataFrame多了数据的结构信息，即schema。这样看起来就像一张表了，DataFrame还配套了新的操作数据的方法，DataFrame API（如df.select())和SQL(select id, name from xx_table where …)。
**此外DataFrame还引入了off-heap,**意味着JVM堆以外的内存, 这些内存直接受操作系统管理（而不是JVM）。Spark能够以二进制的形式序列化数据(不包括结构)到off-heap中, 当要操作数据时, 就直接操作off-heap内存. 由于Spark理解schema, 所以知道该如何操作。
RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。Da