CDH集群清理磁盘空间

对于很多CDH使用者来说,随着时间的推移,磁盘空间会越来越少,除了一部分数据占用外,其他的一部分空间不知道保存着什么数据,无法清理,本博主今天就分享一下定期清理CDH集群指南。

1.由于HDFS有回收站,如何设置不合理的话,它会长时间占用集群资源,因此我们首先清理HDFS回收站。
  1. 在平时删除HDFS文件时,可以使用命令:hdfs dfs -rm -skipTrash /path/to/file/you/want/to/remove/permanently,这样的话文件就直接删除了,不会放在回收站(注:此种删除为永久删除,无法恢复数据),用这个命令删除HDFS数据的话,后期就无需清空HDFS回收站
  2. 清空回收站命令:hdfs dfs -expunge (注:执行完命令后,回收站的数据不会立即被清理,而是先打了一个checkpoint。显示的是一分钟后清除。)
2.清空spark任务执行历史记录(如果通过spark任务写入大量数据到大数据平台,那么spark任务历史记录会占很大空间,因此需要我们定期清理)
  1. 清除掉 /user/spark/applicationHistory/*路径下的文件(查看该路径下文件命令:hadoop fs -ls /user/spark/applicationHistory,查看该路径下文件占用磁盘大小:hadoop fs -du -h /user/spark/applicationHistory)
  2. 清掉spark任务执行历史记录后再把回收站清理一下。
3.yarn缓存文件清理
  1. /yarn/nm下,主要清空filecahe里的文件,这部分最站磁盘
  2. /yarn/container-logs下,如果数据量大的话也要清理掉
4.hdfs数据做定期处理
5.集群各组件日志做定期处理
  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值