datasSet学习

1、dataset官方定义:

A Dataset is a strongly typed collection of domain-specific objects that can be transformed in parallel using functional or relational operations.

Each Dataset also has an untyped view called a DataFrame, which is a Dataset of Row.

翻译:

Dataset是特定域对象中的强类型集合,它可以使用函数或者相关操作并行地进行转换等操作。

每个Dataset都有一个称为DataFrame的非类型化的视图,这个视图是行的数据集

 

2、RDD也是可以并行化的操作,DataSet和RDD主要的区别是:DataSet是特定域的对象集合;然而RDD是任何对象的集合。DataSet的API总是强类型的;而且可以利用这些模式进行优化,然而RDD却不行。

 

3、 datafrmae -> dataSet : df.as(String)

dataset -> dataframe :dst.toDF()

  • 创建一个ds
 val data = spark.read.text("dataSet/userSet.txt").as[String]
val personDS = Seq(("Max", 33), ("Adam", 32), ("Muller", 62)).toDS
personDS.show
withNames = personDS.toDF("name", "age").as[(String, Int)]
withNames.show

阅读的相关博客:

关于DataSet和DataFrame

RDD、DataFrame和DataSet的区别

我们为什么选择parquet

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值