在早期并行计算的编程模式,缺乏针对数据共享的高效元语,会造成磁盘I/O以及序列化等开销,Spark提出了统一的编程抽象——弹性分布式数据集(RDD),该模型可以令并行计算阶段间高效地进行数据共享。
Spark处理数据时,会将计算转换为一个有向无环图(DAG)的任务集合,RDD能够有效地恢复DAG中故障和慢节点执行的任务,并且RDD提供一种基于粗粒度变换的接口,记录创建数据集的“血统”,能够有效实现高效的容错性。
在早期并行计算的编程模式,缺乏针对数据共享的高效元语,会造成磁盘I/O以及序列化等开销,Spark提出了统一的编程抽象——弹性分布式数据集(RDD),该模型可以令并行计算阶段间高效地进行数据共享。
Spark处理数据时,会将计算转换为一个有向无环图(DAG)的任务集合,RDD能够有效地恢复DAG中故障和慢节点执行的任务,并且RDD提供一种基于粗粒度变换的接口,记录创建数据集的“血统”,能够有效实现高效的容错性。