SparkSQL DataSet

SparkSQL DataSet
1、概念

DataSet是分布式的数据集合。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建,可以用函数式的转换(map/flatmap/filter)进行多种操作。
2、DataFrame、DataSet、RDD的区别

假设RDD中的两行数据是这样:

那么DataFrame中的数据是这样:

那么Dataset中的数据是这样:

或者是这样(每行数据是个Object):

DataSet包含了DataFrame的功能,Spark2.0中两者统一,DataFrame表示为DataSet[Row],即DataSet的子集。

    DataSet可以在编译时检查类型
    并且是面向对象的编程接口

相比DataFrame,Dataset提供了编译时类型检查,这会节省调试bug的大量的时间,这也是引入Dataset的一个重要原因。
3、DataFrame与DataSet的互转

    DataFrame转为 DataSet
    df.as[ElementType]这样可以把DataFrame转化为DataSet。
    DataSet转为DataFrame
    ds.toDF()这样可以把DataSet转化为DataFrame。

4、创建DataSet
4.1、通过spark.createDataset创建


4.2、通toDS方法生成DataSet


4.3、通过DataFrame转换生成

使用as[]转换为DataSet

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值