spark 显示hdfs 路径_spark work目录处理 And HDFS空间都去哪了？

最新推荐文章于 2021-07-02 16:06:59 发布

weixin_39615808

最新推荐文章于 2021-07-02 16:06:59 发布

阅读量291

点赞数

文章标签： spark 显示hdfs 路径

本文链接：https://blog.csdn.net/weixin_39615808/article/details/111762132

版权

当遇到Spark任务执行失败且磁盘空间不足的问题时，发现非HDFS文件占用了大量DFS空间。通过检查发现，Spark的工作目录`spark-work`占用过大，达到201G。Spark standalone模式下，每次任务提交会在工作目录下生成文件夹，积累过多会导致内存问题。解决方案是在`spark-env.sh`中添加配置，开启worker的自动清理功能，设置清理周期和保留数据的时间，以定期清理无用的app数据。

摘要由CSDN通过智能技术生成

1、说在前面

过完今天就放假回家了(挺高兴)，于是提前检查了下个服务集群的状况，一切良好。正在我想着回家的时候突然发现手机上一连串的告警，spark任务执行失败，spark空间不足。我的心突然颤抖了一下，于是赶紧去看服务器的磁盘容量：

#df -h

确实，还剩下6.8G，赶紧排查是什么占用了空间。发现hadoop、spark站的空间比较大，一个50多G(data)、一个30多G(spark-events)。不对啊，这也没占多少啊，于是登录到hadoop的webui去看资源的使用情况：

发现Non DFS Used的值很大，接下来就是名词解释时间：

Capacity：可用的总空间

Used：已用的空间

Non DFS Used：非hdfs文件占用dfs的空间(侵占)

Remaining：剩余可用空间

发现Non DFS Used的值都很大，证明有很多的非hdfs文件侵占了大量的dfs空间。可以看到其中有一个加点只剩6.03G了。这个总空间的大小默认就是磁盘的大小，不过hadoop有个磁盘的配置项dfs.datanode.du.reserved，这个配置是设置hadoop保留一部分不用于hdfs存储的空间默认是0。

2、好了，明白这个后，开始去排查到底是什么文件侵占了dfs的空间。看了一下服务器上面部署的服务，有spark、hadoop(hdfs)、presto，如果是对大数据相对熟悉的人第一判断应该是spark，首先想到的是spark work和spark-events&

最低0.47元/天解锁文章

weixin_39615808

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark 显示hdfs 路径_spark work目录处理 And HDFS空间都去哪了？

1、说在前面过完今天就放假回家了(挺高兴)，于是提前检查了下个服务集群的状况，一切良好。正在我想着回家的时候突然发现手机上一连串的告警，spark任务执行失败，spark空间不足。我的心突然颤抖了一下，于是赶紧去看服务器的磁盘容量：#df -h确实，还剩下6.8G，赶紧排查是什么占用了空间。发现hadoop、spark站的空间比较大，一个50多G(data)、一个30多G(spark-event...
复制链接

扫一扫