操作系统监控

最新推荐文章于 2025-04-09 09:14:17 发布

清风不灭

最新推荐文章于 2025-04-09 09:14:17 发布

阅读量1.2k

点赞数 1

分类专栏：性能监控文章标签：性能监控操作系统监控 dstat vmstat top

本文链接：https://blog.csdn.net/weixin_40391011/article/details/119139986

版权

性能监控专栏收录该内容

1 篇文章

订阅专栏

参考文章

https://blog.csdn.net/zhangtikang134/article/details/104740709

https://blog.csdn.net/Sunny_Future/article/details/112633976

CPU

使用top命令

按下1可以显示每一个核的具体情况，按下P按CPU使用率排序线程，按下M按内存使用率排序线程。

注意：CPU的使用率上限是核心数*100%

关键指标：load average、us、sy、id、wa

load average：cpu调度运行队列长度（正在执行和等待执行的任务数）

us:用户进程对cpu的使用率

sy:系统进程对cpu的使用率

id:cpu空闲率

wa:cpu等待，一般情况下当这个值持续较高时，说明进行频繁磁盘操作或者发生网络阻塞。

1、CPU利用率（us、sy）

在Linux系统上，CPU利用率主要分成两个部分：用户态利用率、系统态利用率

用户态利用率(us) = 执行应用程序代码的时间 / 总cpu时间
系统态利用率(sy) = 执行操作系统调用的时间 / 总cpu时间

为了尽可能的压榨CPU，使用户利用率达到最大化，我们应尽量使操作系统利用率为0%，也就是说应尽量减少应用程序对操作系统的调用，从而相对相对提升应用程序使用CPU的比例，比如：

减少锁竞争。CPU主要消耗在上下文切换。
减少CPU与IO设备交互：

          – 单写改用批写。减少写网络/磁盘IO发生系统调用的次数
      – 多用缓存。减少读网络/磁盘IO发生系统调用的次数
          – 使用NIO框架。比如netty，减少处理请求、发送响应线程数

2、CPU调度运行队列长度

load average 7.25 3.17 1.23代表过去一分钟、五分钟、十五分钟队列长度

啥叫CPU调度运行队列？
比如在Java程序中，线程有一个状态叫做就绪，指明该线程已经准备好了，正在等待可用的CPU。而处于该状态的线程，会先在一个所谓的CPU调度运行队列中等待，直到CPU对它们进行调度并执行。

如果这个队列的长度达到或超过虚拟处理器的个数（一般是物理CPU核数，如果带有超线程技术那么就是物理核数*2）的4倍或更多时，说明机器负载很重，处理不过来，需要调优了。
一般的解决办法是：

增加CPU。这个要看老板是否土豪。
分析应用程序CPU使用率，优化算法或数据结构。做同样的事，花的CPU周期更少。

内存

使用free命令，-m是m为单位显示数据，-g是g为单位显示数据

1、buff/cache

buffer 在操作系统中指 buffer cache，中文一般翻译为 “缓冲区”。要理解缓冲区，必须明确另外两个概念：“扇区” 和 “块”。扇区是设备的最小寻址单元，也叫 “硬扇区” 或 “设备块”。块是操作系统中文件系统的最小寻址单元，也叫 “文件块” 或 “I/O 块”。每个块包含一个或多个扇区，但大小不能超过一个页面，所以一个页可以容纳一个或多个内存中的块。当一个块被调入内存时，它要存储在一个缓冲区中。每个缓冲区与一个块对应，它相当于是磁盘块在内存中的表示。

buffer cache 只有块的概念而没有文件的概念，它只是把磁盘上的块直接搬到内存中而不关心块中究竟存放的是什么格式的文件。

cache 在操作系统中指 page cache，中文一般翻译为 “页高速缓存”。页高速缓存是内核实现的磁盘缓存。它主要用来减少对磁盘的 I/O 操作。具体地讲，是通过把磁盘中的数据缓存到物理内存中，把对磁盘的访问变为对物理内存的访问。页高速缓存缓存的是内存页面。缓存中的页来自对普通文件、块设备文件(这个指的就是 buffer cache 呀)和内存映射文件的读写。

页高速缓存对普通文件的缓存我们可以这样理解：当内核要读一个文件（比如 /etc/hosts）时，它会先检查这个文件的数据是不是已经在页高速缓存中了。如果在，就放弃访问磁盘，直接从内存中读取。这个行为称为缓存命中。如果数据不在缓存中，就是未命中缓存，此时内核就要调度块 I/O 操作从磁盘去读取数据。然后内核将读来的数据放入页高速缓存中。这种缓存的目标是文件系统可以识别的文件（比如 /etc/hosts）。

页高速缓存对块设备文件的缓存就是我们在前面介绍的 buffer cahce。因为独立的磁盘块通过缓冲区也被存入了页高速缓存(缓冲区最终是由页高速缓存来承载的)。

到这里我们应该搞清楚了：无论是缓冲区还是页高速缓存，它们的实现方式都是一样的。缓冲区只不过是一种概念上比较特殊的页高速缓存罢了。

那么为什么 free 命令不直接称为 cache 而非要写成 buff/cache？这是因为缓冲区和页高速缓存的实现并非天生就是统一的。在 linux 内核 2.4 中才将它们统一。更早的内核中有两个独立的磁盘缓存：页高速缓存和缓冲区高速缓存。前者缓存页面，后者缓存缓冲区。当你知道了这些故事之后，输出中列的名称可能已经不再重要了。

2、swap交换分区

swap space 是磁盘上的一块区域，可以是一个分区，也可以是一个文件。所以具体的实现可以是 swap 分区也可以是 swap 文件。当系统物理内存吃紧时，Linux 会将内存中不常访问的数据保存到 swap 上，这样系统就有更多的物理内存为各个进程服务，而当系统需要访问 swap 上存储的内容时，再将 swap 上的数据加载到内存中，这就是常说的换出和换入。交换空间可以在一定程度上缓解内存不足的情况，但是它需要读写磁盘数据，所以性能不是很高。

现在的机器一般都不太缺内存，如果系统默认还是使用了 swap 是不是会拖累系统的性能？理论上是的，但实际上可能性并不是很大。并且内核提供了一个叫做 swappiness 的参数，用于配置需要将内存中不常用的数据移到 swap 中去的紧迫程度。这个参数的取值范围是 0～100，0 告诉内核尽可能的不要将内存数据移到 swap 中，也即只有在迫不得已的情况下才这么做，而 100 告诉内核只要有可能，尽量的将内存中不常访问的数据移到 swap 中。在 ubuntu 系统中，swappiness 的默认值是 60。如果我们觉着内存充足，可以在 /etc/sysctl.conf 文件中设置 swappiness

vm.swappiness=10

如果系统的内存不足，则需要根据物理内存的大小来设置交换空间的大小。

如果si和so持续有数据，并且swap使用率持续升高，很可能正在发生内存溢出。

3、free 与 available

在 free 命令的输出中，有一个 free 列，同时还有一个 available 列。这二者到底有何区别？

free 是真正尚未被使用的物理内存数量。至于 available 就比较有意思了，它是从应用程序的角度看到的可用内存数量。Linux 内核为了提升磁盘操作的性能，会消耗一部分内存去缓存磁盘数据，就是我们介绍的 buffer 和 cache。所以对于内核来说，buffer 和 cache 都属于已经被使用的内存。应用程序需要内存时，如果没有足够的 free 内存可以用，内核就会从 buffer 和 cache 中回收内存来满足应用程序的请求。所以从应用程序的角度来说，available = free + buffer + cache。请注意，这只是一个很理想的计算方式，实际中的数据往往有较大的误差。

磁盘

使用命令iostat -x -k 1 10 （yum install -y sysstat）

-x:扩展，不使用-x,显示的信息会比较少

-k:以k为单位显示

1：每1秒显示一次；

10：共显示10次

    rrqm/s：每秒这个设备相关的读取请求有多少被Merge了（当系统调用需要读取数据的时候，VFS将请求发到各个FS，如果FS发现不同的读取请求读取的是相同Block的数据，FS会将这个请求合并Merge）；
    wrqm/s：每秒这个设备相关的写入请求有多少被Merge了；
    rsec/s：每秒读取的扇区数；
    wsec/：每秒写入的扇区数。
    rKB/s：每秒发送给设备的读请求数；
    wKB/s：每秒发送到设备的写请求数；
    avgrq-sz 平均请求扇区的大小
    avgqu-sz 是平均请求队列的长度。毫无疑问，队列长度越短越好。
    await：每一个IO请求的处理的平均时间（单位是微秒毫秒）。这里可以理解为IO的响应时间，一般地系统IO响应时间应该低于5ms，如果大于10ms就比较大了。这个时间包括了队列时间和服务时间，也就是说，一般情况下，await大于svctm，它们的差值越小，则说明队列时间越短，反之差值越大，队列时间越长，说明系统出了问题。
    svctm    表示平均每次设备I/O操作的服务时间（以毫秒为单位）。如果svctm的值与await很接近，表示几乎没有I/O等待，磁盘性能很好，如果await的值远高于svctm的值，则表示I/O队列等待太长，         系统上运行的应用程序将变慢。
    %util：在统计时间内所有处理IO时间，除以总共统计时间。例如，如果统计间隔1秒，该设备有0.8秒在处理IO，而0.2秒闲置，那么该设备的%util = 0.8/1 = 80%，所以该参数暗示了设备磁盘的繁忙程度。

一般地，单纯看读写速率意义不大，读写速率因磁盘质量而异，应该重点关注磁盘繁忙程度。如果该参数是100%（达到90%已经很危险）表示设备已经接近满负荷运行了（当然如果是多磁盘，即使%util是100%，因为磁盘的并发能力，所以磁盘使用未必就到了瓶颈）。

iotop -o
可以找出使用io高的进程