Spark SQL之DataFrame概述

最新推荐文章于 2024-04-12 10:58:38 发布

vincent_hahaha

最新推荐文章于 2024-04-12 10:58:38 发布

阅读量159

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/vincent_duan/article/details/105153489

版权

spark 专栏收录该内容

33 篇文章 1 订阅

订阅专栏

产生背景

DataFrame不是Spark SQL提出的，而是早期在R、Pandas语言就已经有了的。

Spark RDD API vs MapReduce API

Spark诞生之初，其中一个很重要的目标就是给大数据生态圈提供基于通用语言（java、scala、python）的而且简单易用的API。Spark RDD API 通过函数式编程模式。如果使用MapReduce，则代码量是非常多的。但是对于不懂Java或者Scala语言的小伙伴是很难上手的。

R/Pandas

在R语言中是有DataFrame概念的，而且R语言非常适合做数据统计和分析。但是R语言和Pandas的局限性非常强。仅仅能支持单机处理。现在单机处理的数据能力必然是有限的。
因此Spark的DataFrame就应运而生。Spark SQL中的DataFrame就是从R/Pandas中转换过来的。

Spark SQL DataFrame

DataSet是一个分布式的数据集。
DataFrame是一个以列（列名、列的类型、列值）的形式构成的分布式数据集。按照列赋予不同的名称。可以理解为关系型数据库中的一张表。DataFrame可以包括文件中的数据、hive中的表或者其他数据源如Mysql，Hbase，或者已存在的RDD。
在spark1.3之前没有DataFrame概念，而是有一个SchemaRDD概念。

DataFrame vs RDD

RDD是分布式的可以进行并行处理的集合。
DataFrame与RDD类似，也是一个分布式数据集，但是DataFrame提供的更像是传统数据库中的一张表。除了数据之外，还有列名、列值、列属性。
DataFrame所提供的API层次更高。
在这里插入图片描述
加入RDD中有一个Person数据，每一行就是一条Person数据，但是Person数据中有什么具体信息都不知道。

DataFrame是按照列的形式组织的，所以我们必然知道列名是什么，数据类型是什么。
因此使用DataFrame时，sparkSQL在执行过程中可以很清楚的知道数据集中有哪些列，列的类型是什么。Spark可以根据这些信息做很好的优化。例如可以只取一个name字段或者只获取age字段，而不需要知道其他列数据。
在这里插入图片描述

vincent_hahaha

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL之DataFrame概述

产生背景DataFrame不是Spark SQL提出的，而是早期在R、Pandas语言就已经有了的。Spark RDD API vs MapReduce APISpark诞生之初，其中一个很重要的目标就是给大数据生态圈提供基于通用语言（java、scala、python）的而且简单易用的API。Spark RDD API 通过函数式编程模式。如果使用MapReduce，则代码量是非常多的。但...
复制链接

扫一扫