1.cache: 将数据临时存储在内存中进行数据的重用
2.persist:将数据临时存储在磁盘文件进行数据重用,设计磁盘IO,性能较低,但是数据安全,任务执行完毕,临时保存的数据文件就会丢失
3.checkpoint:将数据长久的保存在磁盘文件,为了保证数据安全,会独立执行作业。 可以配合chache使用。
checkpoint会切断血缘关系,重新建立新的血缘
mapRDD.cache()
mapRDD.checkpoint()
1.cache: 将数据临时存储在内存中进行数据的重用
2.persist:将数据临时存储在磁盘文件进行数据重用,设计磁盘IO,性能较低,但是数据安全,任务执行完毕,临时保存的数据文件就会丢失
3.checkpoint:将数据长久的保存在磁盘文件,为了保证数据安全,会独立执行作业。 可以配合chache使用。
checkpoint会切断血缘关系,重新建立新的血缘
mapRDD.cache()
mapRDD.checkpoint()