最近发现公司服务器搭建的网站访问缓慢,服务器输入命令也反应慢,处理步骤如下:

1、通过top命令查看服务器CPU、内存、IO等使用情况

   发现CPU基本在80%以上;内存还好,有富余;CPU平均加载率Load Average也是达到40左右


2、通过vmstat、iostat参看相关参数,确认是CPU占用很高,CPU不够用,当时以为服务器CPU被用完了,但是应用不是很多,两CPU是够用的


3、后来慢慢看进程和服务线程以及端口号占用和包发送,(w、procinfo、ps、uptime、netstat),只看到被应用的日志占用大多的CPU资源


4、后来百度了一下,有个类似的帖子,《解决centos删除文件后没有释放空间》(来源:blog.51cto.com 作者:cj397428869


4.1、其帖子如下:

现象:

发现当前磁盘空间使用情况:

[root@ticketb ~]# df -h
Filesystem           Size  Used Avail Use% Mounted on
/dev/sda1            981M  203M  729M  22% /
none                  16G     0   16G   0% /dev/shm
/dev/sda9            2.9G   37M  2.7G   2% /tmp
/dev/sda7            4.9G  1.9G  2.7G  42% /usr
/dev/sda8            2.9G  145M  2.6G   6% /var
/dev/mapper/vghome-lvhome
                      20G   19G   11M 100% /home
/dev/mapper/vgoradata-lvoradata
                     144G   48G   90G  35% /u01/oradata
/dev/mapper/vgbackup-lvbackup
                     193G  7.8G  175G   5% /u01/backup


通过下面的命令找到无用的文件,然后删除

[root@ticketb ~]# find /home/oracle/admin/dbticb/udump/ -name"dbticb_*.trc" -mtime +50 | xargs rm -rf

然后在查看磁盘空间使用情况,发现没有/home空间没有变化

[root@ticketb ~]# df -h
Filesystem           Size  Used Avail Use% Mounted on
/dev/sda1            981M  203M  729M  22% /
none                  16G     0   16G   0% /dev/shm
/dev/sda9            2.9G   37M  2.7G   2% /tmp
/dev/sda7            4.9G  1.9G  2.7G  42% /usr
/dev/sda8            2.9G  145M  2.6G   6% /var
/dev/mapper/vghome-lvhome
                      20G   19G   11M 100% /home
/dev/mapper/vgoradata-lvoradata
                     144G   48G   90G  35% /u01/oradata
/dev/mapper/vgbackup-lvbackup
                     193G  7.8G  175G   5% /u01/backup

这个郁闷啊,明明删除文件了,怎么空间没有被释放啊,rm命令应该是直接删除啊,在查看下/home下还有什么占用空间

[root@ticketb ~]# du -h --max-depth=1  /home
16K     /home/lost+found
2.6G    /home/oracle
2.6G    /home

可这里显示空间已经释放了啊,于是google下,

未释放磁盘空间原因:

在Linux或者Unix系统中,通过rm或者文件管理器删除文件将会从文件系统的目录结构上解除链接(unlink).然而如果文件是被
打开的(有一个进程正在使用),那么进程将仍然可以读取该文件,磁盘空间也一直被占用。而我删除的是oracle的告警log文件
删除的时候文件应该正在被使用

解决方法

首先获得一个已经被删除但是仍然被应用程序占用的文件列表,如下所示:

[root@ticketb ~]# lsof |grep deleted
oracle    12639  oracle   5w     REG             253,0        648     215907 /home/oracle/admin/dbticb/udump/dbticb_ora_12637.trc(deleted)
oracle    12639  oracle   6w     REG             253,0 16749822091     215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle    12639  oracle   7u     REG             253,0           0     36282 /home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstdbticb (deleted)
oracle    12639  oracle   8w     REG             253,0 16749822091     215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle    12641  oracle   5w     REG             253,0         648    215907 /home/oracle/admin/dbticb/udump/dbticb_ora_12637.trc (deleted)
oracle    12641  oracle   6w     REG             253,0 16749822091     215748/home/oracle/admin/dbticb/bdump/alert_dbticb.log (deleted)


oracle    23492  oracle   6w     REG             253,0 16749822091     215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle    23492  oracle   7u     REG             253,0          0      36282/home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstdbticb (deleted)
oracle    23492  oracle   8w     REG             253,0 16749822091     215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle    23494  oracle  10u     REG             253,0          0      36307 /home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstrmandb(deleted)

从输出结果可以看到/home/oracle/admin/dbticb/bdump/alert_dbticb.log还被使用,未被释放空间

如何让进程释放呢?

一种方法是kill掉相应的进程,或者停掉使用这个文件的应用,让os自动回收磁盘空间

我这个环境有很多进程在使用的这个文件,停掉进程有点麻烦,再有就是风险很大

当linux打开一个文件的时候,Linux内核会为每一个进程在/proc/ 『/proc/nnnn/fd/目录(nnnn为pid)』建立一个以其pid
为名的目录用来保存进程的相关信息,而其子目录fd保存的是该进程打开的所有文件的fd(fd:filedescriptor)。

kill进程是通过截断proc文件系统中的文件可以强制要求系统回收分配给正在使用的的文件。
这是一项高级技术,仅到管理员确定不会对运行中的进程造成影响时使用。应用程序对这种方
式支持的并不好,当一个正在使用的文件被截断可能会引发不可预知的问题

所以我还是采用停应用来解决

restart oracle数据库,发现/home/oracle/admin/dbticb/bdump/alert_dbticb.log对应的空间被释放

在查看磁盘空间的使用情况,发现空间已经回收了

[root@ticketb ~]# df -h
Filesystem           Size  Used Avail Use% Mounted on
/dev/sda1            981M  203M  729M  22% /
none                  16G     0   16G   0% /dev/shm
/dev/sda9            2.9G   37M  2.7G   2% /tmp
/dev/sda7            4.9G  1.9G  2.7G  42% /usr
/dev/sda8            2.9G  145M  2.6G   6% /var
/dev/mapper/vghome-lvhome
                      20G  2.6G   16G  15% /home
/dev/mapper/vgoradata-lvoradata
                     144G   48G   90G  35% /u01/oradata
/dev/mapper/vgbackup-lvbackup
                     193G  7.8G  175G   5% /u01/backup


ok,问题解决,然后做下收尾工作即可

-------------------------------------------------------------------------------------------------


4.2、我用:ll /proc/pid/fd,查看了下这目录的文件,很多全是红色高亮的文件,而且是被标注为已经被删除了的


4.3、我又使用命令 :lsof | grep deleted查询了下被删除而没被及时收回空间的文件


4.4、在确认没有用的情况下kill -9 pid直接杀掉进程,删除部分进程后,top系统,CPU使用率下降不少,继续将其他被删除的文件清理出进程。


4.5、CPU太平了,降到1%以下,负载的数值也从原来的40降到了0.X。


不过有个问题是:有两个文件标注了被删除的,但是指向的软连接却是现在用起的应用下的文件,查了下现在应用的进程号和被删除进程好对比,两者不同,我就将其直接kill掉,却发现运行中的应用程序挂了,重启应用程序后,在 lsof | grep deleted 依然有那文件,也是标注被删除的文件,进程号都一致了,关掉相应应用程序,查看此文件也不在了,启动应用又出现,此文件是应用自动产生,没办法删除掉,确实还没解决这个问题??????