背景
项目初期,购买了一台ECS实例,部署了所有业务。因为用户量较少(1000以内),后续没有怎么关注。
突然有一天,收到云监控报警短信,磁盘空间不够(超过设定的85%阈值)
分析
- 查看整体磁盘使用情况,df -h,使用33G之多,
root@alf-region-us01:/opt/hookchen# df -h
Filesystem Size Used Avail Use% Mounted on
udev 3.8G 0 3.8G 0% /dev
tmpfs 771M 3.3M 768M 1% /run
/dev/vda1 40G 33G 5.3G 86% /
tmpfs 3.8G 0 3.8G 0% /dev/shm
tmpfs 5.0M 0 5.0M 0% /run/lock
tmpfs 3.8G 0 3.8G 0% /sys/fs/cgroup
tmpfs 771M 0 771M 0% /run/user/0
- 在根目录下面,查看各个文件夹占用大小情况。从占用情况看,用了13G的样子。剩余的20G去哪里了。
- 各种精简磁盘空间的方法都用了,比如去除冗余安装包、系统日志等。还是没有找出剩余的20G
- 想到有些文件已经删除了,但是对应的进程还在,导致没有真正地释放。
lsof | grep deleted | sort -nr
能够看出,部分日志被删除了,但实际没有真正释放。 - 对上述进程进行kill,然后重新查看磁盘使用情况。发现磁盘得到真正释放。
原因&&结论
为什么出现上述情况?应该是相关运维任务,对日志文件进行硬删除,即直接删除日志文件。实际上该日志文件仍然被相关进程使用,导致统计磁盘的时候,还是原来的大小。
比较好的方法是,
• 杀掉进程,但是容易出现其他不可预知的问题。
• echo “” > xxx.log,把文件置空,服务不受影响,文件大小也可以控制下来。
• 利用相关守护进程,进行日志的清空,比如pm2 flush