服务器 CPU 负载过高,如何定位问题

一、排查 CPU 故障的常用命令

  1. top:Linux命令。可以实时查看各个进程的 CPU 使用情况。也可以查看最近一段时间的 CPU 使用情况。默认按 CPU 使用率排序。
  2. ps:Linux 命令。强大的进程状态监控命令。可以查看进程以及进程中线程的当前 CPU 使用情况。属于当前状态的采样数据。
  3. jstack:Java 提供的命令。可以查看某个进程的当前线程栈运行情况。根据这个命令的输出可以定位某个进程的所有线程的当前运行状态、运行代码,以及是否死锁等等。
  4. pstack:Linux 命令。可以查看某个进程的当前线程栈运行情况。

二、应用负载高的时候怎么办?

一个应用占用 CPU 很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环。CPU 负载过高解决问题过程:

  1. 使用【top】命令定位异常进程,可发现 PID 为 12836 的 CPU 和内存占用率都非常高:

备注: top 命令默认每 3 秒刷新一次。可以通过top -d <刷新时间间隔>来指定刷新频率,如top -d 0.1top -d 0.01等。top 执行时,也可以按“s”键,修改时间间隔。

  1. 使用top -Hp PID查看该 PID 对应进程下各个线程的 CPU 使用情况:

PID(Process Identification)操作系统里指进程识别号,也就是进程标识符。操作系统里每打开一个程序都会创建一个进程 ID,即 PID。PID 是各进程的代号,每个进程有唯一的 PID 编号。它是进程运行时系统分配的,并不代表专门的进程。在运行时 PID 是不会改变标识符的,但是进程终止后 PID 标识符就会被系统回收,就可能会被继续分配给新运行的程序。

  1. 使用【printf “%x\n” 线程号】将异常线程号转化为 16 进制

  1. 使用【jstack 进程号|grep 16进制异常线程号 -A90】来定位异常代码的位置(最后的-A90是日志行数,也可以输出为文本文件或使用其他数字)。可以看到异常代码的位置:

找到相应代码检查,发现确实有死循环存在。

三、什么场景会造成 CPU 低而负载确很高呢?

负载总结为一句话就是:需要运行处理但又必须等待队列前的进程处理完成的进程个数。具体来说,也就是如下两种情况:
等待被授权予 CPU 运行权限的进程、等待磁盘 I/O 完成的进程。

CPU 低而负载高也就是说等待磁盘 I/O 完成的进程过多,就会导致队列长度过大,这样就体现到负载过大了,但实际是此时 CPU 被分配去执行别的任务或空闲,具体场景有如下几种:

①数据库抖动,造成线程队列 hang 住,负载升高
②磁盘读写请求过多就会导致大量 I/O 等待。CPU 的工作效率要高于磁盘,而进程在 CPU 上面运行需要访问磁盘文件,这个时候 CPU 会向内核发起调用文件的请求,让内核去磁盘取文件,这个时候会切换到其他进程或者空闲,这个任务就会转换为不可中断睡眠状态。当这种读写请求过多就会导致不可中断睡眠状态的进程过多,从而导致负载高,CPU 低的情况。
③外接硬盘故障,常见有挂了 NFS,但是 NFS server 故障
比如系统挂载了外接硬盘如 NFS 共享存储,经常会有大量的读写请求去访问 NFS 存储的文件,如果这个时候 NFS Server 故障,那么就会导致进程读写请求一直获取不到资源,从而进程一直是不可中断状态,造成负载很高。

四、监控发现线上机器内存占用率居高不下,如何分析进行优化?

  1. 使用top -p pid针对所要查的 pid 查看该进程的 CPU 和内存以及负载情况。
  2. jmap -histo:live [pid],然后分析具体的对象数目和占用内存大小,从而定位代码。
  3. jmap -dump:live,format=b,file=xxx.xxx [pid],然后利用 MAT 工具分析是否存在内存泄漏等等。
  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
1. CPU Vcore 简介: VCORE转换器(调节器)是在台式个人电脑、笔记本式个人电脑、服务器、工业电脑等计算类设备中为CPU(中央处理器)内核或GPU(图形处理器)内核供电的器件,与普通的POL(负载点)调节器相比,它们要满足完全不同的需要:CPU/GPU都表现为变化超快的负载,需要以极高的精度实现动态电压定位 (Dynamic Voltage Positioning) ,需要满足一定的负载线要求,需要在不同的节能状态之间转换,需要提供不同的参数测量和监控。 在VCORE转换器与CPU之间通常以串列汇流排界面进行通讯,CPU会根据其负荷和运行模式提出不同的供电要求。 最基本的与CPU连接在一起的VCORE转换器(常常简称为VCORE)的电路架构,它们通常由一个控制器和外置的功率级构成。 CPU所消耗的电流实在太大,这样的搭配通常是最合理的。 有的低功耗CPU只需使用单相的Buck转换器即可,但功耗大的就必须使用多相式Buck转换器了。 电路中,功率级被分为多相,通常被用于台式个人电脑中,其正常运行温度下的负载电流为(Thermal Design Current,热设计电流,简称TDC。 VCORE输出电压的检测位置是在CPU底座下,它也被用作转换器的回馈信号。 在CPU和VCORE转换器之间有几条通讯线,其中包含有时钟信号和资料信号构成的串列通讯汇流排,还有1或2条警告信号线,其作用是将调节器一侧所发生的一些特定状况通知CPUCPU可以通过串列通讯汇流排向转换器发送特殊的命令,像电压的改变和设定特定的运行状态都要这样进行。 CPU也可以要转换器报告一些资讯,如电流消耗状况、功率级的运行温度等。不同的CPU平台有不同的通讯协定,对于Intel的CPU来说,VR12.1、VR12.5、IMVP8或IMVP9等是可选的; 对AMD的 CPU来说则有SVI和SVI2可选,这样的资讯在为自己的CPU选择相应的电压转换器时是必须要注意的。 2. 立锜VCORE转换器解决方案的选择方法立锜针对Intel和AMD的平台提供了大量的VCORE控制器产品 Intel CPU可以分为两类:一种以ATOMTM为基础,一种以iCORETM为基础。以ATOMTM为基础的CPU是针对可携式、小尺寸、低功率应用的网路电脑、平板电脑和工业电脑的,其平台名称有Braswell、Apollo Lake 和 Gemini Lake等。以iCORETM为基础的CPU是针对高性能应用如笔记型电脑、台式电脑的,其平台名称有Sky Lake、Kaby Lake 和 Coffee Lake等。不同代际的Intel CPU使用了不同的串列通讯协定,较老的Braswell CPU使用VR12.1协定,较新的则使用IMVP8TM或IMVP9TM 方案来源于大大通
服务器 CPU 占用过高的问题,一般有以下几种可能的原因: 1. 系统负载过高:可能是由于系统中运行的进程或服务过多,导致 CPU 资源被占用过多。可以使用 top 命令查看当前系统中运行的进程,并根据需要停止或调整相应的进程。 2. 程序代码问题:可能是开发的程序代码存在性能问题,导致 CPU 占用过高。可以使用工具对程序进行性能分析,找出性能瓶颈并进行优化。 3. 数据库查询问题:可能是数据库中的查询语句存在问题,导致 CPU 资源被消耗过多。可以使用慢查询日志或者性能分析工具对查询进行分析,并进行优化。 4. 病毒或恶意软件感染:可能是服务器被病毒或恶意软件感染,导致 CPU 占用过高。可以使用杀毒软件对服务器进行检查和清理。 针对 CPU 占用过高的问题,可以尝试以下解决方法: 1. 调整系统资源分配:可以通过调整系统负载均衡、资源分配策略等方式,优化系统资源的使用效率,避免过多的 CPU 占用。 2. 优化程序代码:可以对程序代码进行优化,例如减少无用循环、缓存热点数据、使用异步处理等方式,减少 CPU 占用。 3. 优化数据库查询:可以使用索引、优化查询语句、减少冗余数据等方式,优化数据库查询性能,减少 CPU 占用。 4. 安装杀毒软件:可以安装杀毒软件对服务器进行检查和清理,避免病毒或恶意软件感染导致 CPU 占用过高。 需要注意的是,针对 CPU 占用过高的问题,需要根据具体情况进行分析和解决。如果无法定位问题,可以考虑寻求专业的技术支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JFS_Study

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值