如何更好的理解Spark中的RDD?

        如果把数据源看作是一堆代加工的工业原材料,将原材料放到一条条机器流水线上加工的过程,就是将数据源变成RDD的过程;分布式计算引擎的本质就是将一堆很大的数据进行打散,分散到多台机器上去利用人多力量大的特点对这些分散的数据进行同时计算,对数据的计算过程会经历很多的步骤和阶段,为了避免开发人员过多关注数据细节于是给这些同时分散在多台机器之上用于执行同一个计算操作的数据叫做RDD,中文叫做分布式弹性数据集。

        分布式就是可以同时分散在多台机器上;弹性是可伸缩,例如原来我的数据分散在三台机器上就是基于三台机器的RDD,如果三台机器的计算速度比较慢,于是可以将其分散到十台机器上来实现十台机器的并发计算,这个时候就是基于十台机器的RDD。RDD是Spark这个分布式计算引擎中最核心的数据模型,所有对数据模型的转换运算处理都需要在RDD内部进行,只有在RDD内部的操作才能算是真正意义上的分布式操作。

  • 7
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值