03—CPU上下文切换（下）

最新推荐文章于 2024-07-19 11:44:44 发布

qq_29864971

最新推荐文章于 2024-07-19 11:44:44 发布

阅读量105

点赞数

分类专栏： Linxu性能优化学习笔记——CPU篇文章标签： linux

本文链接：https://blog.csdn.net/qq_29864971/article/details/114819095

版权

Linxu性能优化学习笔记——CPU篇专栏收录该内容

8 篇文章 0 订阅

订阅专栏

CPU上下文切换是什么意思（下）

1. 怎么查看上下文切换情况？

通过前面学习我们知道，过多的上下文切换，会把 CPU 时间消耗在寄存器、内核栈以及虚拟内存等数据的保存和恢复上，缩短进程真正运行的时间，成了系统性能大幅下降的一个元凶。在这里，我们可以使用 vmstat 这个工具，来查询系统的上下文切换情况。

vmstat 是一个常用的系统性能分析工具，主要用来分析系统的内存使用情况，也常用来分析 CPU 上下文切换和中断的次数。

下面是一个vmstat示例：

图面中的指标的含义如下：

cs（context switch）是每秒上下文切换的次数。

in（interrupt）则是每秒中断的次数。

r（Running or Runnable）是就绪队列的长度，也就是正在运行和等待 CPU 的进程数。

b（Blocked）则是处于不可中断睡眠状态的进程数。

可以看到，这个例子中的上下文切换次数 cs 是 33 次，而系统中断次数 in 则是 25 次，而就绪队列长度 r 和不可中断状态进程数 b 都是 0。

2. 查看进程上下文切换情况

vmstat 只给出了系统总体的上下文切换情况，要想查看每个进程的详细情况，就需要使用我们前面提到过的 pidstat 了。给它加上 -w 选项，你就可以查看每个进程上下文切换的情况了。

cswch：表示每秒自愿上下文切换（voluntary context switches）的次数

nvcswch：表示每秒非自愿上下文切换（non voluntary context switches）的次数。

自愿上下文切换，是指进程无法获取所需资源，导致的上下文切换。比如说， I/O、内存等系统资源不足时，就会发生自愿上下文切换。

非自愿上下文切换，则是指进程由于时间片已到等原因，被系统强制调度，进而发生的上下文切换。比如说，大量进程都在争抢 CPU 时，就容易发生非自愿上下文切换。

3. 案例分析

首先，在第一个终端里运行 sysbench ，模拟系统多线程调度的瓶颈：

接着，在第二个终端运行 vmstat ，观察上下文切换情况：

你应该可以发现，cs 列的上下文切换次数从之前的 35 骤然上升到了 139 万。同时，注意观察其他几个指标：

r 列：就绪队列的长度已经到了 8，远远超过了系统 CPU 的个数 2，所以肯定会有大量的 CPU 竞争。

us（user）和 sy（system）列：这两列的 CPU 使用率加起来上升到了 100%，其中系统 CPU 使用率，也就是 sy 列高达 84%，说明 CPU 主要是被内核占用了。

in 列：中断次数也上升到了 1 万左右，说明中断处理也是个潜在的问题。综合这几个指标，我们可以知道，系统的就绪队列过长，也就是正在运行和等待 CPU 的进程数过多，导致了大量的上下文切换，而上下文切换又导致了系统 CPU 的占用率升高。那么到底是什么进程导致了这些问题呢？

4. pidstat -w查看进程上下文切换

我们继续分析，在第三个终端再用 pidstat 来看一下， CPU 和进程上下文切换的情况：

从 pidstat 的输出你可以发现，CPU 使用率的升高果然是 sysbench 导致的，它的 CPU 使用率已经达到了 100%。但上下文切换则是来自其他进程，包括非自愿上下文切换频率最高的 pidstat ，以及自愿上下文切换频率最高的内核线程 kworker 和 sshd。

不过，细心的你肯定也发现了一个怪异的事儿：pidstat 输出的上下文切换次数，加起来也就几百，比 vmstat 的 139 万明显小了太多。这是怎么回事呢？难道是工具本身出了错吗？

别着急，在怀疑工具之前，我们再来回想一下，前面讲到的几种上下文切换场景。其中有一点提到， Linux 调度的基本单位实际上是线程，而我们的场景 sysbench 模拟的也是线程的调度问题，那么，是不是 pidstat 忽略了线程的数据呢？

5. pidstat –wt 查看线程上下文切换

pidstat 默认显示进程的指标数据，加上 -t 参数后，才会输出线程的指标。

分析结论：现在你就能看到了，虽然 sysbench 进程（也就是主线程）的上下文切换次数看起来并不多，但它的子线程的上下文切换次数却有很多。看来，上下文切换罪魁祸首，还是过多的 sysbench 线程。

我们已经找到了上下文切换次数增多的根源，那是不是到这儿就可以结束了呢？当然不是。因为除了上下文切换频率骤然升高，还有中断次数也上升到了 1 万，但到底是什么类型的中断上升了呢？

6. /proc/interrupts查询中断

既然是中断，我们都知道，它只发生在内核态，而 pidstat 只是一个进程的性能分析工具，并不提供任何关于中断的详细信息，怎样才能知道中断发生的类型呢？

没错，那就是从 /proc/interrupts 这个只读文件中读取。/proc 实际上是 Linux 的一个虚拟文件系统，用于内核空间与用户空间之间的通信。/proc/interrupts 就是这种通信机制的一部分，提供了一个只读的中断使用情况。

观察一段时间，你可以发现，变化速度最快的是重调度中断（RES），这个中断类型表示，唤醒空闲状态的 CPU 来调度新的任务运行。这是多处理器系统（SMP）中，调度器用来分散任务到不同 CPU 的机制，通常也被称为处理器间中断（Inter-Processor Interrupts，IPI）。所以，这里的中断升高还是因为过多任务的调度问题，跟前面上下文切换次数的分析结果是一致的。

7. 干货

每秒上下文切换多少次才算正常呢？

这个数值其实取决于系统本身的 CPU 性能。在我看来，如果系统的上下文切换次数比较稳定，那么从数百到一万以内，都应该算是正常的。但当上下文切换次数超过一万次，或者切换次数出现数量级的增长时，就很可能已经出现了性能问题。

这时，你还需要根据上下文切换的类型，再做具体分析。比方说：

(1) 自愿上下文切换变多了，说明进程无法获取资源，都在等待资源，有可能发生了 I/O 、内存不足等其他问题；

(2) 非自愿上下文切换变多了，说明进程都在被强制调度，也说明大量进程在争抢 CPU，说明 CPU 的确成了瓶颈；

(3) 中断次数变多了，说明 CPU 被中断处理程序占用，还需要通过查看 /proc/interrupts 文件来分析具体的中断类型。所以，过多的任务调度，容易导致(2)和(3)的发生，进而造成CPU的性能瓶颈。

8. 小结

今天，我通过一个 sysbench 的案例，给你讲了上下文切换问题的分析思路。碰到上下文切换次数过多的问题时，我们可以借助 vmstat 、 pidstat 和 /proc/interrupts 等工具，来辅助排查性能问题的根源。

vmstat —————— 查询整体的CPU上下文切换、中断和内存使用情况的工具

pidstat –w —————— 查询进程上下文切换情况

pidstat –wt —————— 查询线程上下文切换情况

/proc/interrupt —————— 查询中断情况

qq_29864971

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
03—CPU上下文切换（下）

CPU上下文切换是什么意思（下）1. 怎么查看上下文切换情况？通过前面学习我们知道，过多的上下文切换，会把 CPU 时间消耗在寄存器、内核栈以及虚拟内存等数据的保存和恢复上，缩短进程真正运行的时间，成了系统性能大幅下降的一个元凶。在这里，我们可以使用 vmstat 这个工具，来查询系统的上下文切换情况。 vmstat 是一个常用的系统性能分析工具，主要用来分析系统的内存使用情况，也常用来分析 CPU 上下文切换和中断的次数。下面是一个vmstat示例：图...
复制链接

扫一扫