SparkSQL Dataset的创建

最新推荐文章于 2023-09-14 10:23:39 发布

小五家的二哈

最新推荐文章于 2023-09-14 10:23:39 发布

阅读量666

点赞数 1

文章标签： spark sql 大数据

本文链接：https://blog.csdn.net/qq_43012693/article/details/109648092

版权

在Spark shell中创建时，需要导入的包：

import org.apache.spark.sql._
import org.apache.spark.sql.functions._
import spark.implicits._
import org.apache.spark.sql.types._

创建方式一：

val dt=spark.createDataset(1 to 5)
dt.show

在这里插入图片描述
创建方式二

spark.createDataset(List(("a",1),("b",2),("c",3))).show

自定义列名。
在这里插入图片描述
创建方式三：
可以在Dataset中放入RDD。

spark.createDataset(sc.parallelize(List(("a",1,2),("b",2,3),("c",3,4)))).show

在这里插入图片描述
结论：

createDataset()的参数可以是:Seq、Array、RDD；
上面三行代码生成的Dataset分别是：
Dataset[Int]、Dataset[(String,Int)]、Dataset[(String,Int,Int)]；
Dataset=RDD+Schema，所以Dataset与RDD有大部共同的函数，如map、filter等

使用Cass Class创建Dataset

case class Point(name:String,age:Int,score:Int)
val stu=Seq(Point("zs",18,90),Point("ls",19,85))
//转换成Dataset
val stuInfo=stu.toDS
stuInfo.show

在这里插入图片描述
这种方法创建的Dataset可以对应相应的列名。
除了在创建时调用样例类，我们还可以通过map来给列命名。

val stu2=spark.createDataset(List(("sam",15,79),("john",17,80)))

stu2的数据和类型：
在这里插入图片描述
使用map函数：

 val stu3=stu2.map(x=>Point(x._1,x._2,x._3))
 stu3.show

在这里插入图片描述
使用select查看：

stu3.select("name","score").show

在这里插入图片描述
使用SQL语句来查询信息
除了上述的方法可以查询信息外，我们也可以使用SQL语法来查询数据信息：
Spark DataFrame提供了registerTempTable这样的接口，可以将数据对象存成临时表，便于后续的各种查询操作等。如select, join等。

stu3.registerTempTable("info")
spark.sql("select * from info").show

在这里插入图片描述
补充：
Scala中在class关键字前加上case关键字这个类就成为了样例类，样例类和普通类区别：

关注