SparkSQL---Spark计算引擎模块

最新推荐文章于 2023-09-28 11:22:37 发布

孤独の√ 3

最新推荐文章于 2023-09-28 11:22:37 发布

阅读量927

点赞数 2

分类专栏：大数据 # spark

本文链接：https://blog.csdn.net/LCY_1013/article/details/105232046

版权

Spark SQL是Spark处理结构化数据的模块，提供DataFrame和DataSet抽象，兼容Hive并支持SQL查询。DataFrame作为DataFrame API和SQL的接口，而DataSet是强类型的数据集合。Spark SQL可通过JDBC与关系型数据库交互，支持从RDD演进到DataFrame和DataSet，提高执行效率。

摘要由CSDN通过智能技术生成

一、Spark SQL简介

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！

SparkSQL可以看做是一个转换层，向下对接各种不同的结构化数据源，向上提供不同的数据访问方式。

二、Spark SQL特征

1.易整合

将SQL查询与Spark程序无缝对接。

Spark SQL允许您使用SQL或熟悉的DataFrame API查询Spark程序内的结构化数据。可用于Java，Scala，Python和R.

2.统一的数据访问方式

以同样的方式连接到任何数据源。

DataFrames和SQL提供了访问各种数据源的常用方式，包括Hive，Avro，Parquet，ORC，JSON和JDBC。您甚至可以通过这些来源加入数据。

3.兼容Hive

在现有仓库上运行SQL或HiveQL查询。

Spark SQL支持HiveQL语法以及Hive SerDes和UDF，允许您访问现有的Hive仓库。

4.标准的数据连接

通过JDBC或ODBC连接。

服务器模式为商业智能工具提供行业标准的JDBC和ODBC连接。

三、RDD、DataFrame 和 DataSet

在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：
RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)
如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。
在后期的Spark版本中，DataSet会逐步取代RDD和DataFrame成为唯一的API接口。

1.RDD

RDD是一个懒执行的不可变的可以支持Lambda表达式的并行数据集合。
RDD的最大好处就是简单，API的人性化程度很高。
RDD的劣势是性能限制，它是一个JVM驻内存对象，这也就决定了存在GC的限制和数据增加时Java序列化成本的升高。

2.DataFrame

2.1 什么是DataFrames

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。由于与R和Pandas的

最低0.47元/天解锁文章

孤独の√ 3

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL---Spark计算引擎模块

目录：一、Spark SQL简介二、Spark SQL特征1.易整合2.统一的数据访问方式3.兼容Hive4.标准的数据连接三、RDD、DataFrame 和 DataSet1.RDD2.DataFrame3.DataSet4.三者的共性5.三者的区别四、以编程方式执行Spark SQL查询一、Spark SQL简介Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程...
复制链接

扫一扫