声明:此偏文章为极客时间《Linux 性能优化实战》的其中一节课程内容总结,如有侵犯原作者著作权,请私信我删除
一些概念
-
平均负载 含义是指单位时间内,系统处于 可运行状态 和 不可中断状态 的平均进程数,和 cpu 使用率没有直接关系
-
可运行状态 是指正在使用 cpu 或者等待 cpu 的进程,不可中断状态 则是指正处于内核态关键流程中的进程,并且这些流程不可被打断,比如等待硬件设备的 I/O 响应,常见案例是当一个进程向磁盘读写数据时,为了保证数据一致性,在得到磁盘回复前,他是不能被其他进程或者中断打断的,这个时候进程就处于不可中断状态。
-
平均负载 的合理性和 cpu 个数相关,最理想状态是等于 cpu 个数。
-
平均负载 的 3 个值分别代表 1 分钟,5 分钟, 15 分钟内的平均负载,本身表示一个趋势,是负载稳定,还是增大,或者减小。
-
cpu 使用率 和 平均负载 关系
- cpu 密集型进程,使用大量 cpu 会导致平均负载升高
- I/O 密集型进程,等待 I/O 也会导致平均负载升高,但 cpu 使用率不一定很高
- 大量等待 cpu 的进程调度也会导致平均负载升高,此时的 cpu 使用率也会比较高
场景模拟
系统:CentOS release 6.9 (Final)
硬件:单 cpu(虚拟)
软件:stress 和 sysstat 包,后者包含常用 Linux 性能工具,这里主要使用 mpstat 和 pidstat 两个工具
用户:root
场景一:cpu 密集型进程
-
模拟一个 cpu 使用 100%
stress --cpu 1 --timeout 600
-
第二个终端查看 uptime 查看平均负载变化,可观察 1 分钟平均负载会逐步增加到 1 左右
watch -d uptime
-
第三个终端查看 cpu 使用率变化 ,可观察到 cpu 使用率为 100% 左右
mpstat -P ALL 5
-
第四个终端使用 pidstat 来查询是哪个进程导致的 cpu 使用率 100% ,可看到 stress 进程 cpu 使用率 100% (%usr 指标)
pidstat -u 5 1
场景二:I/O 密集型进程
-
模拟 I/O 压力,不停执行 sync
stress -i 1 --timeout 600
-
第二个终端查看 uptime 查看平均负载变化,可观察 1 分钟平均负载会逐步增加到 1 左右
watch -d uptime
-
第三个终端查看 cpu 使用率变化 ,可观察到 cpu 使用率的 %sys 指标上升,如果有显示 %iowait 此值也上升(如果 cpu 不太行,此时可能 %sys 会到 99%,%iowait 值还好)
mpstat -P ALL 5
-
第四个终端使用 pidstat 来查询是哪个进程导致 %sys 或者 %iowait 高 ,可看到仍然是 stress 进程导致
pidstat -u 5 1
场景三:大量进程的场景
-
模拟 3 个进程
stress -c 3 --timeout 600
-
第二个终端查看 uptime 查看平均负载变化,可观察 1 分钟平均负载会逐步增加到 3 左右
watch -d uptime
-
第三个终端使用 pidstat 来查询,可观察 3 个进程争抢 1 个 cpu ,%wait 列如果有显示,大概在 66% 左右(等待 cpu 时间)
pidstat -u 5 1