RDD设计是整个Spark中最为核心的设计理念,理解了RDD的设计之后自然而然就可以理解Spark为什么要这么设计,首先呢我们要先从Spark和Hadoop的渊源说起。
Spark&Hadoop
Hadoop在之前几年是非常火的,统领了大数据分析将近十年的浪潮,但是从2015年之后,整个Hadoop市场在逐渐萎缩,取而代之的是Spark市场逐渐扩张,同样是做批处理为何Spark要比Hadoop技高一筹呢?
Hadoop是一个非常成熟的生态系统,基于非常抽象的MapReduce来进行数据分析,用户呢不需要关心其他的实现,只需要写好Map函数和Reduce函数,Hadoop就可以帮我们进行数据分析,听起来非常令人振奋人心。既然是高度抽象,我们想,所有的数据分析模型我们都可以表达为这两个函数么?很显然这是不一定的,可见MapReduce模型在功能的丰富性的表达上是存在一定的缺陷的。同时呢,Hadoop的MapReduce模型将整个的数据分析流程抽象为Map过程和一个Reduce过程,在集群工作的时候势必会进行等待,因为只有集群内部所有节点的Map过程全部完成之后才可以启动Reduce过程。此外呢?Hadoop是一个基于硬盘的这样一个系统,在数据分析过程中需要频繁和磁盘进行交换,存在着巨大的IO瓶颈。
那么RDD正是注意到了Hadoop的这些缺点之后伴随着Spark一起诞生的。Hadoop的MapReduce过程表达能力差,我Spark表达能力强啊,提供了丰富的处理流程的接口,我们可以按照函数式编程的方式来进行编程。Hadoop在Map过程和Reduce过程之间进行等待,我Spark可以基于DAG(有向无环图)进行优化,大大的减少了等