关于DataSet和DataFrame

刚才开始看SparkSql,把看过程中的了解的东西行记下来

1,关于类型方面:

  • DataSet是带有类型的(typed),例:DataSet<Persono>。取得每条数据某个值时,使用类似person.getName()这样的API,可以保证类型安全。
  • 而DataFrame是无类型的,是以列名来作处理的,所以它的定义为DataSet<Row>。取得每条数据某个值时,可能要使用row.getString(0)col("department")这样的方式来取得,无法知道某个值的具体的数据类型。

2,关于schema。DataFrame带有schema,而DataSet没有schema。schema定义了每行数据的“数据结构”,就像关系型数据库中的“列”,schema指定了某个DataFrame有多少列。

参考:
Spark RDD、DataFrame和DataSet的区别
Spark SQL, DataFrames and Datasets Guide
Class Dataset API
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值