spark ALS 使用checkpoint 机制

最新推荐文章于 2021-11-16 11:24:11 发布

Damonhaus

最新推荐文章于 2021-11-16 11:24:11 发布

阅读量1.5k

点赞数

分类专栏： spark-mllib

本文链接：https://blog.csdn.net/Damonhaus/article/details/76572971

版权

spark-mllib 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在开发协同过滤组件，运用了spark millb上的协同过滤 ALS算法。在测试过程中遇到了内存溢出的错误，查找了错误位置，发现在训练的时候，迭代次数的增加便会出现这个问题，原因可能是迭代是的计算的数据量指数上升。为了解决这个问题，参考了许多技术文档后总结出一些自己的见解。

1）在ALS模型中运用checkpoint机制

spark checkpoint 机制个人理解就是在程序中插入一个检查点，如果程序出错，重新运行程序便会从这个检查点开始，不需要重头再来，大大加强了程序的效率。

在使用checkpoint前需要先设置checkpoint和相关参数，再进行训练。相关代码如下

sc.setCheckpointDir("hdfs://master:9000/..")//会在..目录创建一个文件夹 这里的sc 是 sparkContext

ALS.setCheckpointInterval(2).setMaxIter(100).setRank(10).setAlpha(0.1)

val model = ALS.run(ratings)

这样就在ALS 模型中运用了checkpoint 机制。

2）删除checkpoint留下的过程数据

但是这样会有一个弊端，每运行一次训练都会在hdfs上保存训练的过程数据，占用集群存储空间。解决的方法是利用spark操作（删除）hdfs上的文件。

sparkConf.set("spark.hadoop.validateOutputSpecs","false")   //设置你spark的配置

val sc = SparkContext(sparkConf)   	//读取你的saprkconf 到 sparkContext

通过spark自带的hadoopconf方式删除

val path = new Path("hdfs://xxx"); 声明要操作（删除）的hdfs 文件路径

val hadoopConf = sparkContext.hadoopConfiguration

val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)

if(hdfs.exists(path)){

	//需要递归删除设置true，不需要则设置false

	hdfs.delete(path,true)  //这里因为是过程数据，可以递归删除

｝

总结，checkpoint处理spark mllib内存溢出的方法只能治标，不能治本。只是将内存中的数据固化到硬盘上，解决内存不足的问题。虽然解决了内存溢出，但如果数据量大的话估计还会出现一系列类似IO的问题。然而还没有找到更好的解决方法，也就先这样吧。学无止境，估计以后会有大神分享更好的解决方法。

Damonhaus

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
spark ALS 使用checkpoint 机制

最近在开发协同过滤组件，运用了spark millb上的协同过滤 ALS算法。在测试过程中遇到了内存溢出的错误，查找了错误位置，发现在训练的时候，迭代次数的增加便会出现这个问题，原因可能是迭代是的计算的数据量指数上升。为了解决这个问题，参考了许多技术文档后总结出一些自己的见解。1）在ALS模型中运用checkpoint机制spark checkpoint 机制个人理解就是在程序中插入一个
复制链接

扫一扫

专栏目录