一、正确使用方式
在执行checkpoint之前先对RDD进行Persist:应为checkpoint操作会启动一个job,spark默认会重新计算执行checkpoint操作的RDD,也就是说,需要从源头开始再计算一次,明显的重复计算。所以先persist后,就不用重复计算了。
二、与persist的区别
checkpoint是写磁盘的,persist也可以通过StorageLevel.DISK_ONLY写磁盘,但是persist写到磁盘的数据的生存周期是与driver相同的。因为persist到磁盘的数据是由executor的blockManager管理的,driver结束后,executor进程也会stop,blockmanager管理的数据就会清空。
checkpoint的正确使用方式及其与persist的区别
最新推荐文章于 2024-04-24 00:25:29 发布