一.缓冲
文件太大的时候,不会全部放到内存中,实际文件大小30M,放到内存中达到90M:因为写入的文件当中存放的是二进制,而读取到内存中以后,使用Java对象序列化方式
这种序列化会占用更大的空间,所以比实际大小要大
实际上不会将内存全部占用,要给程序运行留下足够的内存
注意:
cache可以提高程序运行速度,但是如果使用一次就没必要cache,常用于反复的使用
cache既不是transformation也不是action,因为没有生成新的RDD, 也没有立即执行
cache不建议直接将hdfs的数据直接cache
建议将hdfs的数据过滤后缓存
使用完毕后清空缓存:
unpersist()
用法:
RDD.cache
二.容错机制
相关知识:checkpoint是建立检查点,类似于快照,例如在spark计算里面,计算流程DAG非常长,服务器需要将整个DAG计算完成得到结果,但是如果在这很长的计算流程中突然中间算出的
数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样很费性能,当然我们可以将中间计算的结果通过cache或者persist方法内存或者磁盘中,但是这样也不能保证数据完全不能丢失
存储的这个内存出问题或者磁盘坏了,也会导致spark从头再根据RDD计算一遍,所以就有了checkpoint,其中checkpoint的作用是将DAG中比较重要的中间数据做一个检查点将结果
放在一个高可用的地方(通常这个地方是HDFS里面)
(*)checkpoint到底是什么和需要用chec