RDD与DataFrame

RDD是一个分布式的无序的列表。

RDD中可以存储任何的单机类型的数据,但是,直接使用RDD在字段需求明显时,存在算子难以复用的缺点。

举例如下:

example

例如,现在RDD 存的数据是一个Person类型的数据,现在要求所有每个年龄段(10年一个年龄段)的人中最高的身高和最大的体重。

使用RDD 接口,因为RDD不了解其中存储的数据的具体的结构,数据的结构对它来说就是黑盒,于是这就需要用户自己去写一个很特化的聚合函数来完成这样的功能。

而有了DataFrame,则框架会去了解RDD中的数据会是什么样的结构,用户可以明确地说清楚自己对每一列进行什么样的操作,这样就有可能可以实现一个算子,用在多个列上,比较容易进行算子的复用。甚至,未来如果要求求出每个年龄段内不同的姓氏有多少,则使用RDD接口,之前的函数需要改动很大才能满足要求,而使用DataFrame接口,只需要添加对这一个列的处理,原来的max/min的相关列处理都可保持不变。

总而言之,DataFrame相关接口就是RDD的一个扩展,让RDD了解RDD中存储的数据包含哪些列,并可以在列上进行操作。

另外,DataFrame基本上快要被DataSet接口取代了。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值