CPU load 高占用率低问题的彻底排查

1. 引言

突然观察到服务器 load 过高,可是 CPU 占用率很低。
这也算是一个常见问题了。
那么,如何排查和解决这个问题呢?

2. top 查看 cpu wait

通过 top 命令,可以看到 CPU 的 wait 很高,可以参考:
top 命令详解

# 此处有图片 2

2.1. 诊断

  • 若 wait 值过高,则说明磁盘 IO 存在瓶颈
  • 若 idle 值高,但 load 仍很高则说明内存容量不足
  • 若 idle 值持续低于 1,则系统的 CPU 处理能力存在瓶颈

3. iostat 分析 IO 性能

我们通过 iostat 可以分析 IO 性能。
通常通过 -x 参数显示详细信息。
下面是一个示例,执行:

iostat -x -k 3 2

# 此处有图片 3

3.1. 参数说明

  • -x – 显示详细信息

  • -k – 以 KB 为单位

  • -m – 以 MB 为单位

  • 3 – 每 3 秒执行一次

  • 2 – 总共执行 2 次

  • 需要注意的是,第1次采样信息与单独执行iostat的效果一样,为从系统开机到当前执行时刻的统计信息,第2次及此后才是当前的实时数据

3.2. 返回信息

返回信息总共包含三部分:

iostat 命令返回信息
选项说明
第一行最上面指示系统版本、主机名和当前日期
avg-cpu总体cpu使用情况统计信息,对于多核cpu,这里为所有cpu的平均值
Device各磁盘设备的IO统计信息

3.3. 返回信息 – avg-cpu

avg-cpu中各列参数含义如下:

iostat 返回的 avg-cpu 信息
选项说明
%userCPU在用户态执行进程的时间百分比。
%niceCPU在用户态模式下,用于nice操作,所占用CPU总时间的百分比
%systemCPU处在内核态执行进程的时间百分比
%iowaitCPU用于等待I/O操作占用CPU总时间的百分比
%steal管理程序(hypervisor)为另一个虚拟进程提供服务而等待虚拟CPU的百分比
%idleCPU空闲时间百分比

3.4. 返回信息 – Device

Device 中各列参数含义如下:

iostat 返回的 Device 信息
选项说明
rrqm/s每秒对该设备的读请求被合并次数,文件系统会对读取同块(block)的请求进行合并
wrqm/s每秒对该设备的写请求被合并次数
r/s每秒完成的读次数
w/s每秒完成的写次数
rkB/s每秒读数据量(kB为单位)
wkB/s每秒写数据量(kB为单位)
avgrq-sz平均每次IO操作的数据量(扇区数为单位)
avgqu-sz平均等待处理的IO请求队列长度
await平均每次IO请求等待时间(包括等待时间和处理时间,毫秒为单位)
svctm平均每次IO请求的处理时间(毫秒为单位)
%util采用周期内用于IO操作的时间比率,即IO队列非空的时间比率

3.5. 诊断

通过具体的 Device 中的 %util 可以看出具体是那块磁盘负载过大。

4. 通过iotop查找高I/O对应的进程

执行 iotop 命令可以看到每个进程占用的 io 比例:

# 此处有图片 4

我们可以找到占用 IO 最大的 TID 即进程 ID。

5. 通过 lsof -p pid 具体文件

# 此处有图片 5

SIZE 一列即读写大小,通过其增长我们就可以锁定究竟是哪个文件造成了 IO 过高。
从而可以分析具体的代码来解决这个问题。

6. 微信公众号

欢迎关注微信公众号,以技术为主,涉及历史、人文等多领域的学习与感悟,每周三到七篇推文,全部原创,只有干货没有鸡汤。

# 此处有图片 6

7. 参考资料

https://support.zabbix.com/browse/ZBXNEXT-1914。
https://www.jianshu.com/p/cb64232df70c。
https://blog.csdn.net/xusensen/article/details/73080887。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: autosar架构软件CPU load是常见的问题之一,它可能会导致设备性能受损,系统崩溃,甚至是安全性问题。快速排查原因可以通过以下步骤: 1. 确认CPU load的现象发生的时间和条件,包括何时,何地,何种环境。 2. 关注程序中的所有资源用,包括主存,中间层,接口等,以及系统外部影响,如网络通信,时间表,CRC校验等等。 3. 检查CPU和核心电路等硬件是否存在故障或者无法正常工作的情况。 4. 采用基于时间的排查,通过记录事件的时间和相关的状态信息来追溯可能引起CPU load的事件。 5. 使用调试软件进行排查,跟踪并分析对象和系统的运行,以定位可能的问题源并解决它们。同时,通过日志记录,分析产生CPU load的原因和发生事件的位置。 总之,排查CPU load问题需要有系统的思路和方法,通过分析硬件和软件的影响,以及使用效的调试软件,来定位问题并解决它们,以确保设备的性能和安全性。 ### 回答2: 当autosar架构软件的CPU负载过时,需要进行以下步骤来快速排查其原因。 首先,要使用性能分析工具来监控CPU使用率和系统负载。此类工具可突出显示CPU时间、热点和锁定问题,并提供CPU飙升或缺陷的警报。 其次,检查系统中的可用内存和使用的内存量。如有必要,可以通过增加内存或调整内存分配来减少CPU开销。 第三,检查系统中运行的进程和线程。通过检查这些进程和线程,可以确定是否存在紧急的CPU使用情况或死锁情况。 最后,如果以上方法都没有解决问题,可以使用追踪和调试工具进行进一步的调试。追踪工具可以捕捉CPU的使用情况,并记录系统中发生的事件和活动。调试工具可以确定哪些函数或线程在导致CPU使用率。 总之,要快速排查autosar架构软件的CPU负载过原因,需要使用性能分析、内存、进程/线程和调试工具来确定问题的根本原因。 ### 回答3: Autosar架构软件是一种度复杂的软件,在使用中可能会出现CPU负载过问题。对于这种情况,我们可以从以下几个方面来进行快速排查。 1、通过软件调试工具查看代码是否存在死循环或者一些不必要的空循环等操作,这些都可能导致CPU。 2、可以通过系统监视器对CPU的利用率进行监控,这样可以了解CPU是否存在一个或多个线程的处理量过导致的问题。 3、检查是否存在大量的IO操作,如读写文件或网络通信等,这些操作会CPU时间,导致CPU。 4、检查是否存在内存泄漏或者内存过大的情况,如果存在这样的情况,会导致CPU负载过。 5、查看是否有频中断的情况,这种情况一般是因为外设设备在短时间内向CPU发送了大量的中断请求,需要检查外设设备是否正常。 总之,对于Autosar架构软件的CPU负载过问题,我们可以从多个角度去查找原因,只要找到了问题,就可以很快地进行解决。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值