环境:ambari +hdp2.6.4
最近发现hdfs的空间越来越少,少到影响数据分析处理了。
使用名称查看一下到底是谁占了空间:
hadoop fs -du -h /
发现有两个文件夹站的空间是最大的:
一个是/app-logs
一个是/spark2-history
删除文件夹下内容
设置定时清理:
## spark2-history日志
spark.history.fs.cleaner.enabled = true
spark.history.fs.cleaner.interval = 1d
spark.history.fs.cleaner.maxAge = 14d
注意:上面是1d和14d需要带后面的单位d,如果未带单位,跑spark的脚本的时候,容易生成警报“File does not exist. Holder DFSClient_NONMAPREDUCE_-195058759_24 does not have any open files.”