【Day 10 Spark SQL基础】

最新推荐文章于 2024-07-25 23:12:39 发布

一欢欢欢

最新推荐文章于 2024-07-25 23:12:39 发布

阅读量611

点赞数 24

文章标签： spark sql 大数据

本文链接：https://blog.csdn.net/qq_62084769/article/details/139747344

版权

Spark SQL基本操作

Spark SQL简介
Spark SQL的主要特点
DataFrame和DataSet
Spark SQL的基本使用
Spark SQL函数
- 内置函数
- 自定义函数

Spark SQL简介

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。

Spark SQL的主要特点

将SQL查询与Spark应用程序无缝组合
Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。与Hive不同的是，Hive是将SQL翻译成MapReduce作业，底层是基于MapReduce的；而Spark SQL底层使用的是Spark RDD。
可以连接到多种数据源
Spark SQL提供了访问各种数据源的通用方法，数据源包括Hive、Avro、Parquet、ORC、JSON、JDBC等。
在现有的数据仓库上运行SQL或HiveQL查询
Spark SQL支持HiveQL语法以及Hive SerDes和UDF （用户自定义函数），允许访问现有的Hive仓库。

DataFrame和DataSet

DataFrame的结构

DataFrame是Spark SQL提供的一个编程抽象，与RDD类似，也是一个分布式的数据集合。但与RDD不同的是，DataFrame的数据都被组织到有名字的列中，就像关系型数据库中的表一样。
DataFrame在RDD的基础上添加了数据描述信息（Schema，即元信息），因此看起来更像是一张数据库表。例如，在一个RDD中有3行数据，将该RDD转成DataFrame后，其中的数据可能如图所示：

在这里插入图片描述

DataSet的结构

Dataset是一个分布式数据集，是Spark 1.6中添加的一个新的API。相比于RDD， Dataset提供了强类型支持，在RDD的每行数据加了类型约束。
在这里插入图片描述
在Spark中，一个DataFrame代表的是一个元素类型为Row的Dataset，即DataFrame只是Dataset[Row]的一个类型别名。

Spark SQL的基本使用

Spark Shell启动时除了默认创建一个名为sc的SparkContext的实例外，还创建了一个名为spark的SparkSession实例，该spark变量可以在Spark Shell中直接使用。

SparkSession只是在SparkContext基础上的封装，应用程序的入口仍然是SparkContext。SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序，支持从不同的数据源加载数据，并把数据转换成DataFrame，然后使用SQL语句来操作DataFrame数据。
进入spark-shell环境

加载数据为Dataset

val d1 = spark.read.textFile("hdfs://hadoop101:8020/input/person.txt")

d1.show() # 查看d1中的数据内容

给Dataset添加元数据信息

case class Person(id:Int,name:String,age:Int)

调用Dataset的map()算子将每一个元素拆分并存入Person类中，代码如下：

val personDataset = d1.map(line=>{
          val fields = line.split(",")
          val id = fields(0).toInt
          val name = fields(1)
          val age = fields(2).toInt
          Person(id,name,age)
          })
          
personDataset.show() # 查看personDataset中的数据内容

将Dataset转为DataFrame

val pdf = personDataset.toDF()

执行SQL查询
在DataFrame上创建一个临时视图v_person，并使用SparkSession对象执行SQL查询，代码如下：

pdf.createTempView("v_person")
val result = spark.sql("select * from v_person order by age desc")
result.show()

Spark SQL函数

内置函数

Spark SQL内置了大量的函数，位于API org.apache.spark.sql.functions
中。其中大部分函数与Hive中的相同。
使用内置函数有两种方式：一种是通过编程的方式使用；另一种是在SQL
语句中使用。

以编程的方式使用lower()函数将用户姓名转为小写/大写，代码如下：

df.select(lower(col("name")).as("greet")).show()
df.select(upper(col("name")).as("greet")).show()

以SQL语句的方式使用lower()函数，代码如下：

df.createTempView("temp")
spark.sql("select upper(name) as greet from temp").show()

自定义函数

当Spark SQL提供的内置函数不能满足查询需求时，用户可以根据需求编写自定义函数（User Defined Functions, UDF），然后在Spark SQL中调用。

一欢欢欢

关注

24
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
【Day 10 Spark SQL基础】

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。当Spark SQL提供的内置函数不能满足查询需求时，用户可以根据需求编写自定义函数（User Defined Functions, UDF），然后在Spark SQL中调用。
复制链接

扫一扫