大数据集群需定期清理的文件（节省空间）

最新推荐文章于 2024-12-20 16:01:15 发布

墨卿风竹

最新推荐文章于 2024-12-20 16:01:15 发布

阅读量679

点赞数 1

文章标签：大数据 spark hive yarn

本文链接：https://blog.csdn.net/qq_43688472/article/details/132490255

版权

本文介绍了大数据集群中定期清理HDFS回收站、Spark任务历史记录、YARN缓存和容器日志的重要性，以及相应的清理命令，以节省存储空间和优化资源利用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据集群需定期清理的文件（节省空间）

1.由于HDFS有回收站，如何设置不合理的话，它会长时间占用集群资源，因此我们首先清理HDFS回收站。
在平时删除HDFS文件时，可以使用命令：hdfs dfs -rm -skipTrash /path/to/file/you/want/to/remove/permanently，这样的话文件就直接删除了，不会放在回收站（注：此种删除为永久删除，无法恢复数据），用这个命令删除HDFS数据的话，后期就无需清空HDFS回收站
清空回收站命令：hdfs dfs -expunge （注：执行完命令后，回收站的数据不会立即被清理，而是先打了一个checkpoint。显示的是一分钟后清除。）
2.清空spark任务执行历史记录（如果通过spark任务写入大量数据到大数据平台，那么spark任务历史记录会占很大空间，因此需要我们定期清理）
清除掉 /user/spark/applicationHistory/*路径下的文件（查看该路径下文件命令：hadoop fs -ls /user/spark/applicationHistory，查看该路径下文件占用磁盘大小：hadoop fs -du -h /user/spark/applicationHistory）
清掉spark任务执行历史记录后再把回收站清理一下。
3.yarn缓存文件清理
/yarn/nm下，主要清空filecahe里的文件，这部分最站磁盘
/yarn/container-logs下，如果数据量大的话也要清理掉
4.hdfs数据做定期处理
5.集群各组件日志做定期处理