Spark SQL入门

最新推荐文章于 2024-06-18 08:45:00 发布

二百四十九先森

最新推荐文章于 2024-06-18 08:45:00 发布

阅读量6.1k

点赞数 1

文章标签： Spark SQL Spark DataFrame

本文链接：https://blog.csdn.net/pengzonglu7292/article/details/79772800

版权

1、SQL结合spark有两条线：

Spark SQL和Hive on Spark（还在开发状态，不稳定，暂时不建议使用）。

#Hive on Spark是在Hive中的，使用Spark作为hive的执行引擎，只需要在hive中修改一个参数即可：

# set hive.execution.engine=spark

2、Spark SQL

a.概述：

Spark SQL是Spark处理数据的一个模块，跟基本的Spark RDD的API不同，Spark SQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。其本质是，Spark SQL使用这些额外的信息去执行额外的优化，这儿有几种和Spark SQL进行交互的方法，包括SQL和Dataset API，当使用相同的执行引擎时，API或其它语言对于计算的表达都是相互独立的，这种统一意味着开发人员可以轻松地在不同的API之间进行切换。

b.SQL:

Spark SQL的一大用处就是执行SQL查询语句，Spark SQL也可以用来从Hive中读取数据，当我们使用其它编程语言来运行一个SQL语句，结果返回的是一个Dataset或者DataFrame.你可以使用命令行，JDBC或者ODBC的方式来与SQL进行交互。

c.Dataset和DataFrame

Dataset是一个分布式数据集合。Dataset是一个在Spark 1.6版本之后才引入的新接口，它既拥有了RDD的优点（强类型、能够使用强大的lambda函数），又拥有Spark SQL的优点（用来一个经过优化的执行引擎）。你可以将一个JVM对象构造成一个Dataset,之后就可以使用一些transformations操作啦。我们可以使用scala,java来访问Dataset API,不支持python哦，当然，由于python的动态特性，很多的Dataset API是可以使用的，R语言也是一样哦。

DataFrame是Dataset中一个有名字的列。从概念上，它等价于关系型数据库中的一张表，或者等价于R/Python中的Data Frame，但它在底层做了更好的优化。构造DataFrame的数据源很多：结构化的数据文件、hive表、外部数据库、已经存在的RDD。DataFrame 的API支持java,scal.python,R。

3、面试题

RDD VS DataFrame

esgd

a.基于RDD的编程，不同语言性能是不一样的，而DataFrame是一样的，因为底层会有一个优化器先将代码进行优化。

b.对于RDD，暴露给执行引擎的信息只有数据的类型，如RDD[Student]装的是Student,而对于DataFrame,对于外部可见的信息有字段类型，字段key,字段value等。

c.RDD是一个数组，DataFrame是一个列式表。

4、Spark SQL愿景

a.写更少的代码

b.读更少的数据（压缩，存储格式，列裁剪）

c.对于不同语言的应用程序让优化器自动进行优化

5、Spark SQL架构

最低0.47元/天解锁文章

二百四十九先森

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark SQL入门

1、SQL结合spark有两条线：Spark SQL和Hive on Spark（还在开发状态，不稳定，暂时不建议使用）。#Hive on Spark是在Hive中的，使用Spark作为hive的执行引擎，只需要在hive中修改一个参数即可：# set hive.execution.engine=spark2、Spark SQLa.概述：Spark S...
复制链接

扫一扫