Spark缓冲、容错机制

最新推荐文章于 2024-01-23 00:35:13 发布

longG_It

最新推荐文章于 2024-01-23 00:35:13 发布

阅读量363

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/qq_41166135/article/details/82873675

版权

本文介绍了Spark的缓冲和容错机制。通过使用RDD的`cache`和`persist`方法，可以将中间计算结果存储在内存或磁盘中以提高性能。然而，这并不能完全防止数据丢失。为了解决这个问题，Spark提供了`checkpoint`功能，它将关键的中间数据保存到高可用的存储（如HDFS），以确保在数据丢失时可以从检查点恢复，减少重复计算。使用`checkpoint`需要先设置检查点目录，并在RDD上调用`checkpoint`方法，通常配合`cache`使用以避免重复计算。

摘要由CSDN通过智能技术生成

一.缓冲

	文件太大的时候，不会全部放到内存中，实际文件大小30M，放到内存中达到90M：因为写入的文件当中存放的是二进制，而读取到内存中以后，使用Java对象序列化方式
	这种序列化会占用更大的空间，所以比实际大小要大
	
	实际上不会将内存全部占用，要给程序运行留下足够的内存
	
	注意：
	cache可以提高程序运行速度，但是如果使用一次就没必要cache，常用于反复的使用
	cache既不是transformation也不是action，因为没有生成新的RDD， 也没有立即执行
	
	cache不建议直接将hdfs的数据直接cache
		   建议将hdfs的数据过滤后缓存
		   
	使用完毕后清空缓存：
	unpersist()

用法：
RDD.cache
二.容错机制
相关知识：checkpoint是建立检查点，类似于快照，例如在spark计算里面，计算流程DAG非常长，服务器需要将整个DAG计算完成得到结果，但是如果在这很长的计算流程中突然中间算出的
数据丢失了，spark又会根据RDD的依赖关系从头到尾计算一遍，这样很费性能，当然我们可以将中间计算的结果通过cache或者persist方法内存或者磁盘中，但是这样也不能保证数据完全不能丢失
存储的这个内存出问题或者磁盘坏了，也会导致spark从头再根据RDD计算一遍，所以就有了checkpoint，其中checkpoint的作用是将DAG中比较重要的中间数据做一个检查点将结果
放在一个高可用的地方（通常这个地方是HDFS里面）

	（*）checkpoint到底是什么和需要用chec

最低0.47元/天解锁文章

longG_It

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录