spark核心编程原理

本文介绍 Spark 的核心编程原理,包括 RDD 的定义及计算流程。从数据源读取初始 RDD 后,通过 map、flatMap 等算子进行数据处理。与 MapReduce 不同,Spark 支持内存中的迭代计算,允许数据多次处理而不仅限于 map 和 reduce 两个阶段。
摘要由CSDN通过智能技术生成

spark核心编程原理

  1. 首先定义初始的RDD,第一个RDD确定是从哪里读取数据,hdfs/local/还是程序中的集合
  2. 定义RDD的计算操作,通过spark中的算子,map/flapmap/filter/groupBykey。这比map和reduce 的功能强大而又简洁。
  3. 第三就是循环往复的过程,当第一个算子算完了以后,数据可能就会到了新的一批节点上,变成一个新的RDD,然后再次重复。针对所有的RDD,定义计算和 操作
  4. 最后将算的最终的数据,存储起来。

spark和MapReduce最大的不同在于,迭代式计算模型

  • MapReduce氛围两个阶段,map和reduce,两个阶段完了就结束了,所以在一个Job中能做的处理很有限,只能在map和reduce 中处理。
  • spark计算模型,可以分为n个阶段,因为它是内存迭代式的,我们在处理完一个阶段后,可以继续迭代,而不是只有两个阶段。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值