Spark SQL之Dataset

最新推荐文章于 2023-12-07 15:42:27 发布

翻斗花园牛爷爷..

最新推荐文章于 2023-12-07 15:42:27 发布

阅读量1k

点赞数

文章标签： spark sql 大数据

本文链接：https://blog.csdn.net/qq_46433375/article/details/126650776

版权

一、 Dataset的概念

1、 Dataset是DataFrame的升级版，相比于DataFrame的好处在于，Dataset可以存放各种各样的数据类型，而DataFrame算是Dataset的一个特例，当Dataset的数据类型为Row时就是DataFrame。

二、 Dataset的创建方式

1、通过隐式转换函数toDS()从集合或者RDD中创建

/**
 * 通过隐式转换函数来创建Dataset
 * @param name
 * @param age
 */
case class Teacher(@BeanProperty var name:String, @BeanProperty var age : Int)
object Demo01 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Demo").setMaster("local[*]")
    val session = SparkSession.builder().config(conf).getOrCreate()

    //内存中---集合 通过toDS
    import session.implicits._
    val teachers: Seq[Teacher] = Seq(Teacher("zs", 20), Teacher("ls", 30))
    val rdd:Dataset[Teacher] = teachers.toDS()
    val teacher:Teacher = rdd.first()
    rdd.show()
  }
}

2、通过SparkSession的createDataset函数从集合或者RDD中创建

object Demo01 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Demo").setMaster("local[*]")
    val session = SparkSession.builder().config(conf).getOrCreate()

    //createDataset
    val rdd1 = session.createDataset(Array(("ls", 20), ("zs", 30)))
    rdd1.show()

  }
}

3、从外部存储文件中创建 —只能使用text纯文本文件

object Demo02 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Demo02").setMaster("local[*]")
    val session = SparkSession.builder().config(conf).getOrCreate()

    val map = Map("mode" -> "FAILFAST", "inferSchema" -> "true")
    val file = session.read.options(map).textFile("hdfs://node1:9000/student.txt")

    import session.implicits._
    val value = file.map((line: String) => {
      val array = line.split(" ")
      Teacher(array(0), array(1).toInt)
    })
    value.show()
  }
}

4、通过DataFrame中借助一些相关算子来进行转换

Spark SQL后期最常用的还是使用SQL语言、HQL语法去对DataFrame或者Dataset中的数据进行处理分析，SQL、HQL语言如果想要实现复杂的业务逻辑，SQL、HQL中支持的函数操作必然不能少的
Spark SQL中也给提供了很多常用的SQL、HQL操作函数，同时用户如果觉得对函数不满意，可以自定义Sparlk SQL函数，应用在Spark SQL的数据处理分析上

三、 RDD、DataFrame、Dataset之间的转换

1、 RDD转换DataFrame通过toDF()
2、 RDD转换Dataset通过toDS()
3、 DataFrame，Dataset转换RDD通过xxxx.rdd()
4、 DataFrame转换为Dataset通过xxxx.as()
5、 Dataset转换为DataFrame通过xxxx.toDF()

四、 Dataset操作

一般使用过程中常用SQL、HQL方式进行数据的统计分析。SQL、HQL中我们可以使用一些函数来满足我们的业务需求，其中Spark SQL中SQL、HQL语句也支持MySQL和hive中的函数，同时Spark SQL也支持自定义函数（UDF\UDTF\UDAF）

翻斗花园牛爷爷..

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫