生产场景:通过df -h显示分区挂载,发现/apps目录,使用率100%,此时,我进行查看该目录,查找大文件,但是通过du -sh命令,发现只占用2.9G
百度查询:通过lsof |grep delete 发现删除文件中占用大小17.03G,加上已经使用的,差不多20G,刚好是磁盘分区挂载的大小
分析:用户删除了大量的文件后,du命令就不会在文件系统目录中统计这些文件。如果此时还在运行中的进程持有这个已经被删除的文件句柄,那么这个文件就不会真正在磁盘中被删除,分区超级块中的信息也就不会更改,df命令仍会统计这个被删除的文件。 通过lsof命令查询处于deleted状态的文件,被删除的文件在系统中被标记为deleted。如果系统有大量deleted状态的文件,会导致du和df命令统计结果不一致。
lsof |grep delete
解决方法:根据lsof列出的进程号,终止相应进程或者重启相应的服务(首先要了解该进程启动的服务,确定梳理清楚后再决定是否可以终止进程,防止用户出现无法访问)。也可以重启实例,重启实例系统会退出现有的进程,开机后重新加载过程中,会释放调用的deleted文件的句柄。
备注:因为是生产环境,因安全政策无法截图,原理参见分析,