【Spark】之 RDD(Resilient Distributed Dataset)
文章目录RDD 编程模型一、RDD 之间的依赖关系(Dependency)如何生成RDD?二、RDD计算(1)RDD 获得数据(2)RDD 计算任务(3)RDD 操作算子三、RDD 容错(1)`Lineage`(2)`checkpoint` 机制RDD 编程模型需求:需要在多个并行操作之间 重用 工作数据集。典型场景:机器学习和图应用中常用的迭代算法(每一步对数据执行相似的函数)数据重用隐...
原创
2019-01-29 21:25:51 ·
325 阅读 ·
0 评论