Spark缓冲、容错机制

一.缓冲

	文件太大的时候,不会全部放到内存中,实际文件大小30M,放到内存中达到90M:因为写入的文件当中存放的是二进制,而读取到内存中以后,使用Java对象序列化方式
	这种序列化会占用更大的空间,所以比实际大小要大
	
	实际上不会将内存全部占用,要给程序运行留下足够的内存
	
	注意:
	cache可以提高程序运行速度,但是如果使用一次就没必要cache,常用于反复的使用
	cache既不是transformation也不是action,因为没有生成新的RDD, 也没有立即执行
	
	cache不建议直接将hdfs的数据直接cache
		   建议将hdfs的数据过滤后缓存
		   
	使用完毕后清空缓存:
	unpersist()

用法:
RDD.cache
二.容错机制
相关知识:checkpoint是建立检查点,类似于快照,例如在spark计算里面,计算流程DAG非常长,服务器需要将整个DAG计算完成得到结果,但是如果在这很长的计算流程中突然中间算出的
数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样很费性能,当然我们可以将中间计算的结果通过cache或者persist方法内存或者磁盘中,但是这样也不能保证数据完全不能丢失
存储的这个内存出问题或者磁盘坏了,也会导致spark从头再根据RDD计算一遍,所以就有了checkpoint,其中checkpoint的作用是将DAG中比较重要的中间数据做一个检查点将结果
放在一个高可用的地方(通常这个地方是HDFS里面)

	(*)checkpoint到底是什么和需要用chec
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值