checkpoint步骤:
1. 建立checkpoint存储路径
scala> sc.setCheckpointDir("hdfs://master:9000/checkpoint0727")
2. rdd1.cache()
3. rdd1.checkpoint()
最好先cache:
阅读源码可以看到,在checkpoint的时候最好先进行cache,这样可以减少计算量,
在代码中,需要checkpoint的rdd是要计算两次的,
因为checkpoint机制是等到job结束后,另外启动一个job去checkpoint,也就是说,
需要checkpoint的rdd是要计算两次的,一次正常程序的计算,一次checkpoint。