Spark---Dataset

最新推荐文章于 2022-09-01 20:54:00 发布

Shall潇

最新推荐文章于 2022-09-01 20:54:00 发布

阅读量180

点赞数 1

分类专栏： spark 文章标签： spark dataset

本文链接：https://blog.csdn.net/qq_43288259/article/details/116673538

版权

spark 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

文章目录

Dataset
Catalyst

Dataset

公共类Dataset
扩展对象
实现scala.Serializable
数据集是特定于域的对象的强类型集合，可以使用功能或关系操作并行转换它们。每个数据集还具有一个称为a的无类型视图DataFrame，该视图是的数据集Row。

官方参考文档：点这里

package testrdd

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession

object TestDataSet {

  case class Point(label:String,x:Double,y:Double)
  case class Category(id:Int,name:String)
  
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("dateSet")
    val sc = SparkContext.getOrCreate(conf)
    val spark = SparkSession.builder().master("local[*]").appName("dataset")
      .config("spark.sql.crossJoin.enabled",true).getOrCreate()
    import spark.implicits._
    //第一种参数Seq
//    val ds = spark.createDataset(1 to 6)
//    ds.show()

    //第二种参数Array
//    val ds2 = spark.createDataset(List(1,2,3,4))
//    ds2.show()

    //第三种参数 RDD
//    val ds3 = spark.createDataset(sc.parallelize(List((1,"Tom",23),(2,"jack",33))))
//    ds3.show()

    //--------------------------------------------------------------------
    val pointsRDD = sc.parallelize(List(("Tom",3.4,4.0),("Jack",5.8,12.0)))
    val catesRDD = sc.parallelize(List((1,"Jack"),(2,"Tom")))

    val points = pointsRDD.map(lines=>Point(lines._1,lines._2,lines._3)).toDS()
    val categories = catesRDD.map(line=>Category(line._1,line._2)).toDS()

    points.join(categories).show()  //全连接---笛卡尔,不推荐
    points.join(categories,points("label")===categories("name") ).show //内连接
  }
}