项目场景:
生产项目中部署了azkaban调度任务,每天增量同步9000多张数据表的增量数据,同步任务在datax进行。由于甲方只提供了一台服务器,因此datax产生的日志文件过多会造成应用挂掉。为了节约内存,使用crontab添加了定时任务,定时删除.out类型的日志文件。
问题描述
多了一段时间,系统挂了,当天的同步任务都没有执行,增量数据没有同步。
原因分析:
在Linux或者Unix系统中,通过rm或者文件管理器删除文件将会从文件系统的文件夹结构上解除链接(unlink),然而假设文件是被打开的(有一个进程正在使用),那么进程将仍然能够读取该文件,磁盘空间也一直被占用。
1、使用df命令查看了一下磁盘空间使用情况,发现日志文件过多,导致没有多余的磁盘空间了。(出现问题时,磁盘空间用了100%)
2、查看文件目录,总共96G,使用了76G
3、查看具体使用情况:du -h --max-depth=1 /,发现只有30多G,没有看到哪些文件占用空间。说明有一些删除的文件还在占用空间。
4、lsof|grep 'deleted',查看删除的文件,很多文件并没有释放空间
解决方案:
1、清理正在被读写的大日志文件时,直接使用 echo "" > xxx.log 命令,即直接将文件置空,并不影响服务的使用,文件大小也被控制下来,磁盘空间也释放了