Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

ting_tu_ran_de

于 2023-05-18 11:44:53 发布

阅读量213

点赞数

文章标签： spark 笔记大数据

本文链接：https://blog.csdn.net/ting_tu_ran_de/article/details/130739714

版权

简单使用Spark SQL
（一）了解SparkSession
Spark Shell启动时除了默认创建一个名为sc的SparkContext的实例外，还创建了一个名为spark的SparkSession实例，该spark变量可以在Spark Shell中直接使用。
从Spark2.0以上版本开始, Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。
SparkSession只是在SparkContext基础上的封装，应用程序的入口仍然是SparkContext。SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序，支持从不同的数据源加载数据，并把数据转换成DataFrame，然后使用SQL语句来操作DataFrame数据。
（二）准备数据文件
1,郑秀芸,女,20
2,王志峰,男,18
3,陈燕文,女,21
4,郑国栋,男,19
5,肖雨涵,男,20
1
2
3
4
5
执行命令：vim student.txt，创建student.txt文件

将student.txt上传到HDFS的/input目录（如果目录不存在，就创建起来）

（三）加载数据为Dataset

启动Spark Shell，执行命令：spark-shell --master spark://master:7077

1、读文件得数据集
调用SparkSession对象的read.textFile()可以读取指定路径中的文件内容，并加载为一个Dataset

执行命令：val ds = spark.read.textFile("hdfs://master:9000/input/student.txt")

从变量ds的类型可以看出，textFile()方法将读取的数据转为了Dataset。除了使用textFile()方法读取文本内容外，还可以使用csv()、jdbc()、json()等方法读取CSV文件、JDBC数据源、JSON文件等数据。(csv: comma separated value)

2、显示数据集内容

执行命令：ds.show()

可以看出，Dataset将文件中的每一行看作一个元素，并且所有元素组成了一列，列名默认为value。

3、显示数据集模式

执行命令：ds.printSchema()

（四）给数据集添加元数据信息

1、定义学生样例类

定义一个样例类Student，用于存放数据描述信息（Schema）
执行命令：case class Student(id: Int, name: String, gender: String, age: Int)

基于样例类创建对象很简单，不需要new关键字，只需要传入相应参数即可创建对象

2、导入隐式转换

导入SparkSession的隐式转换，以便后续可以使用Dataset的算子
执行命令：import spark.implicits._ （_表示implicits包里所有的类，类似于Java里的*）

3、将数据集转换成学生数据集

调用Dataset的map()算子将每一个元素拆分并存入Student样例对象
执行命令:paste进入粘贴模式，然后执行红框类的命令

4、对学生数据集进行操作

（1）显示数据集内容

执行命令：studentDS.show()

以看到，studentDS中的数据类似于一张关系型数据库的表。

（2）打印数据集模式

执行命令：studentDS.printSchema()

（3）对数据集进行投影操作

显示学生的姓名和年龄字段，执行命令：studentDS.select("name", "age").show()

（4）对数据集进行过滤操作

显示女生记录，执行命令：studentDS.filter("gender == '女'").show()

显示年龄在[19, 20]之间的记录

可以有更简单的处理方式，执行命令：studentDS.filter("age >= 19 and age <= 20").show()

（5）对数据集进行统计操作

求20岁以上的女生人数

分组统计男女生总年龄，执行命令：studentDS.groupBy("gender").sum("age").show()

分组统计男女生平均年龄：执行命令：studentDS.groupBy("gender").sum("age").show()

分组统计男女生最大年龄，执行命令：studentDS.groupBy("gender").max("age").show()

分组统计男女生最小年龄，执行命令：studentDS.groupBy("gender").min("age").show()

（6）对数据集进行排序操作

按年龄升序排列，执行命令：studentDS.sort("age").show()

按年龄降序排列，执行命令：studentDS.sort("gender", studentDS("age").desc).show()

先按性别升序排列，再按年龄降序排列，执行命令：studentDS.sort(studentDS("gender"), studentDS("age").desc).show()

（7）重命名数据表字段

执行命令：spark.sql("select id stu_id, name stu_name, gender stu_gender, age stu_age from student").show()
执行命令：spark.sql("select id 学号, name 姓名, gender 性别, age 年龄 from student").show()，无法解析中文别名
将数据集转为数据帧
Spark SQL查询的是DataFrame中的数据，因此需要将存有元数据信息的Dataset转为DataFrame。调用Dataset的toDF()方法，将存有元数据的Dataset转为DataFrame。
1、将数据集转为数据帧
将学生数据集转为学生数据帧，执行命令：val studentDF = studentDS.toDF()
2、对数据帧进行各种操作

（1）显示数据帧内容
显示学生数据帧内容，执行命令：studentDF.show()
（2）显示数据帧模式信息
打印学生数据帧模式信息，执行命令：studentDF.printSchema()
（3）对数据帧进行投影操作
显示学生数据帧姓名与年龄字段，年龄加1，执行命令：studentDF.select(studentDF("name"), studentDF("age") + 1).show()
（4）对数据帧进行过滤操作
查询年龄在19岁以上的记录，执行命令：studentDF.filter(studentDF("age") > 19).show()

查询20岁以上的女生记录，执行命令：studentDF.filter("age > 20 and gender == '女'").show()

（5）对数据帧进行统计操作

统计学生数据帧总记录数，执行命令：studentDF.count()

分组统计男女生总年龄，执行命令：studentDF.groupBy("gender").sum("age").show()，

分组统计男女生平均年龄，执行命令：studentDF.groupBy("gender").avg("age").show()

分组统计男女生最大年龄，执行命令：studentDF.groupBy("gender").max("age").show()，

分组统计男女生最小年龄，执行命令：studentDF.groupBy("gender").min("age").show()

分组统计男女生人数，执行命令：studentDF.groupBy("gender").count().show()

对数据帧进行排序操作
对年龄升序排列，执行命令：studentDF.sort("age").show()

对年龄降序排列，执行命令：studentDF.sort(studentDF("age").desc).show()

先按性别升序，再按年龄降序，- 执行命令：studentDF.sort(studentDF("gender"), studentDF("age").desc).show()

重命名数据帧字段

执行命令：df.select(df("id").as("学号"), df("name").as("姓名"), df("gender").as("性别"), df("age").as("年龄")).show()

1、基于数据帧创建临时视图

基于学生数据帧studentDF，创建一个临时视图student，就可以对student视图进行SQL操作
执行命令：studentDF.createTempView("student")
如果指定的视图不存在，那就创建，如果存在，那就替换。
2、使用spark对象执行SQL查询
在Spark Shell环境里，系统已经创建了名为spark的SparkSession对象
（1）查询全部表记录
执行命令：spark.sql("select * from student").show()
（2）显示数据表结构
执行命令：spark.sql("describe student").show()

（3）对表进行投影操作

执行命令：spark.sql("select name, age + 1 from student").show()

（4）对表进行选择操作

查询年龄在19岁以上的记录，执行命令：spark.sql("select * from student where age > 19").show()

查询20岁以上的女生记录，执行命令：spark.sql("select * from student where age > 20 and gender = '女'").show()

（5）对表进行统计操作

查询学生表总记录数，执行命令：spark.sql("select count(*) count from student").show()
重命名数据表字段
执行命令：spark.sql("select id stu_id, name stu_name, gender stu_gender, age stu_age from student").show()