Spark SQL概述、数据帧与数据集(4.1)

简单使用Spark SQL

(一)了解SparkSession

  • Spark Shell启动时除了默认创建一个名为sc的SparkContext的实例外,还创建了一个名为spark的SparkSession实例,该spark变量可以在Spark Shell中直接使用。
  • 从Spark2.0以上版本开始, Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。
  • SparkSession只是在SparkContext基础上的封装,应用程序的入口仍然是SparkContext。SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序,支持从不同的数据源加载数据,并把数据转换成DataFrame,然后使用SQL语句来操作DataFrame数据。

(二)准备工作

1、准备数据文件
  • 在/home目录里创建student.txt文件
  • 将student.txt上传到HDFS的/student/input目录
1,郑秀芸,,20
2,王志峰,,18
3,陈燕文,,21
4,郑国栋,,19
5,肖雨涵,,20

在这里插入图片描述

2、启动Spark Shell
  • 启动Spark Shell,执行命令:spark-shell --master spark://master:7077
    在这里插入图片描述

(三)加载数据为Dataset

1、读文件得数据集
  • 调用SparkSession对象的read.textFile()可以读取指定路径中的文件内容,并加载为一个Dataset

  • 执行命令:val ds = spark.read.textFile(“hdfs://master:9000/student/input/student.txt”)
    在这里插入图片描述

  • 从变量ds的类型可以看出,textFile()方法将读取的数据转为了Dataset。除了使用textFile()方法读取文本内容外,还可以使用csv()、jdbc()、json()等方法读取CSV文件、JDBC数据源、JSON文件等数据。(csv: comma separated value)

2、显示数据集内容
  • 执行命令:ds.show()
    在这里插入图片描述
  • 可以看出,Dataset将文件中的每一行看作一个元素,并且所有元素组成了一列,列名默认为value。
3、显示数据集模式
  • 执行命令:ds.printSchema()

(四)给数据集添加元数据信息

1、定义学生样例类
  • 定义一个样例类Student,用于存放数据描述信息(Schema)

  • 执行命令:case class Student(id: Int, name: String, gender: String, age: Int)

在这里插入图片描述

  • 基于样例类创建对象很简单,不需要new关键字,只需要传入相应参数即可创建对象
    在这里插入图片描述
2、导入隐式转换
  • 导入SparkSession的隐式转换,以便后续可以使用Dataset的算子
  • 执行命令:import spark.implicits._ (_表示implicits包里所有的类,类似于Java里的*)
  • 在这里插入图片描述
3、将数据集转换成学生数据集
  • 调用Dataset的map()算子将每一个元素拆分并存入Student样例对象
  • 执行命令:paste进入粘贴模式,然后执行红框类的命令
    在这里插入图片描述
val studentDS = ds.map(line => {
      val fields = line.split(",")
      val id = fields(0).toInt
      val name = fields(1)
      val gender = fields(2)
      val age = fields(3).toInt
      Student(id, name, gender, age)
   }
)

4、对学生数据集进行操作
(1)显示数据集内容
  • 执行命令:studentDS.show
    在这里插入图片描述
  • 可以看到,studentDS中的数据类似于一张关系型数据库的表。
(2)打印数据集模式
  • 执行命令:studentDS.printSchema
(3)对数据集进行投影操作
  • 显示学生的姓名和年龄字段,执行命令:studentDS.select(“name”, “age”).show

  • 对应的SQL语句:select name, age from student

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值