cache和persist
/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) /** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def cache(): this.type = persist()
cache底层是调用persist,存储数据到到内存。
cache和checkpoint
cache机制是每计算出一个partition直接将其放到内存。checkpoint不是第一次计算出的结果进行存储,而是等到job结束后另起一个job去完成checkpoint。也就是,checkpoint前的计算会进行两次。因此,建议使用checkpoint前加上cache,这样就避免了重复计算两次。
核心:cache不会断开血缘关系,而checkpoint会断开血缘关系。
persist和checkpoint
pesist(StorageLevel.DISK_ONLY)
与checkpoint也有区别。persist的数据是交给blockmanager管理的,等driver执行结束,整个blockManager 使用的local文件夹被删除,也就是数据会被删除。而不同的是,checkpoint的将数据持久化到hdfs,如果不手动删除会一直存在。