生产实践

生产实践

1.线上服务器CPU 100%了!该怎么排查、定位和解决?

(1)定位耗费cpu的进程

top -c,就可以显示进程列表,然后输入P,按照cpu使用率排序,你会看到类似下面的东西

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND

43987 root 20 0 28.2g 4.5g 68m S 99.0 24.0 44333.4 java -Xms。。。

大概类似上面这样,能看到哪个进程,CPU负载最高,还有启动这个进程的命令,比如一般就是java啥啥的。

(2)定位耗费cpu的线程

top -Hp 43987,就是输入那个进程id就好了,然后输入P,按照cpu使用率排序,你会看到类似下面的东西

 

大概类似上面那样,你就可以看到这个进程里的哪个线程耗费cpu最高 。

(3)定位哪段代码导致的cpu过高

printf “%x\n” 16872,把线程pid转换成16进制,比如41e8

jstack 43987 | grep ‘0x41e8’ -C5 --color

这个就是用jstack打印进程的堆栈信息,而且通过grep那个线程的16进制的pid,找到那个线程相关的东西,这个时候就可以在打印出的代码里,看到是哪个类的哪个方法导致的这个cpu 100%的问题。

2.线上进程kill不掉怎么办

kill一个进程死活杀不死,那个进程成了僵尸进程,就是zombie状态。这是因为这个进程释放了资源,但是没有得到父进程的确认。

ps aux,看看STAT那一栏,如果是Z,那么就是zombie状态的僵尸进程 。

ps -ef | grep 僵尸进程id,可以找到父进程id 。

然后先kill掉父进程即可 。

3.服务器存储空间快满了(95%),还有一个小时存储就满了,在不影响服务正常运行的情况下,该如何解决?

df -h,先看看磁盘使用的情况 。

然后就是到你的系统部署的地方,一般就是tomcat下的日志、spring boot的日志,去看看,如果过多,就删除掉一些日志就行了,自己注意让tomcat或者nginx之类的日志输出,按天切割,这样你还可以写个shell脚本,crontab定时,定期删除7天以前的日志 。

要是不行,那就:find / -size +100M |xargs ls -lh,找找大于100m的文件,但是如果有大量的小文件,那么这样是不行的 。

或者是用:du -h >fs_du.log,看看各个目录占用的磁盘空间大小,看看是不是哪个目录有大量的小文件 。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值