问题需求:
我们的hdfs /user/hadoop/.sparkStaging/目录下有5000多个applications,占用几十个T,导致磁盘告警。经查看次目录很多已经运行结束的applications依赖环境仍然在占用hdfs存储。那么就得清理下这些无用的目录。
解决方式:
在spark-defaults.conf文件中添加配置:
spark.yarn.preserve.staging.files=false
含义:提交作业时的staged文件在application结束时进行删除
此配置只会在配置生效后提交的application有用,已经产生的stage文件仍然需要动手写脚本删除(但要注意不要删除正在运行的application目录)