问题背景
昨天下午看到数据平台服务器cpu利用率达到了98.94%,而且最近一段时间一直持续在70%以上,看起来像是硬件资源到瓶颈需要扩容了,但仔细思考就会发现咱们的业务系统并不是一个高并发或者CPU密集型的应用,这个利用率有点太夸张,硬件瓶颈应该不会这么快就到了,一定是哪里的业务代码逻辑有问题。
1、排查思路
1.1 定位高负载进程
首先登录到服务器使用top命令确认服务器的具体情况,根据具体情况再进行分析判断。
通过观察load average,以及负载评判标准(8核),可以确认服务器存在负载较高的情况;