linux 系统性能指标

最新推荐文章于 2024-09-21 10:26:28 发布

我很满意

最新推荐文章于 2024-09-21 10:26:28 发布

阅读量656

点赞数

分类专栏： Linux系统软件

本文链接：https://blog.csdn.net/myhuashengmi/article/details/52510898

版权

Linux系统软件专栏收录该内容

30 篇文章 0 订阅

订阅专栏

一、查看CPU使用情况

cpu使用率反映的是当前cpu的繁忙程度，忽高忽低的原因在于占用cpu处理时间的进程可能处于io等待状态但却还未释放进入wait。

平均负载（load average）是指某段时间内占用cpu时间的进程和等待cpu时间的进程数，这里等待cpu时间的进程是指等待被唤醒的进程，不包括处于wait状态进程。

1、良好状态指标

CPU利用率：User Time <= 70%，System Time <= 35%，User Time + System Time <= 70%。
上下文切换：与CPU利用率相关联，如果CPU利用率状态良好，大量的上下文切换也是可以接受的。
可运行队列：每个处理器的可运行队列<=3个线程。

2、工具

（1）vmstat

字段说明：

r (run queue)可运行队列的线程数，这些线程都是可运行状态，只不过CPU暂时不可用；

b，被blocked的进程数，正在等待IO请求；

in ，interrupts，被处理过的中断数

cs ，context switch，系统上正在做上下文切换的数目

us ，用户占用CPU的百分比

sys ，内核和中断占用CPU的百分比

id ，CPU完全空闲的百分比

(2)uptime

[root@node1 ~]# uptime
00:44:22 up 1:17, 3 users, load average: 8.13, 5.90, 4,94

显示的是过去的1,5,15分钟内进程队列中的平均进程数量

如何衡量当前系统是否负载过高?
如果每个cpu(可以按CPU核心的数量计算)上当前活动进程数不大于3，则系统性能良好，
不大于4，表示可以接受
如大于5，则系统性能问题严重
上面例中的8.13,如果有2个cpu核心,则8.13/2=4.065, 此系统性能可以接受

建议设置严格的报警值为: CPU核心的数量
比如：CPU核心数量为2，则设置报警值为2

(3)top

[root@node1 ~]# top

top - 10:31:45 up 14:51, 3 users, load average: 0.07, 0.33, 0.33
Tasks: 91 total, 1 running, 90 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 0.2%sy, 0.0%ni, 99.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 502288k total, 494648k used, 7640k free, 220k buffers
Swap: 1015800k total, 21792k used, 994008k free, 238468k cached

从top 要看CPU负载情况，可以看%us和%sy，其中%us<=70%, %sy<=35%,%us+%sy<=70%说明状态良好，同时可以结合idle值来看，也就是%id，如果%id<=70% 则表示IO的压力较大

查看某个进程占用的CPU资源

二、Memory

1、良好状态指标

swap in （si） == 0，swap out （so） == 0
应用程序可用内存/系统物理内存 <= 70%

2、监控工具

（1）vmstat

参数说明：

swpd ，已使用的 SWAP 空间大小，KB 为单位；

free ，可用的物理内存大小，KB 为单位；

buff ，物理内存用来缓存读写操作的buffer大小，KB 为单位；

cache ，物理内存用来缓存进程地址空间的 cache 大小，KB 为单位；

si ，数据从 SWAP 读取到 RAM（swap in）的大小，KB 为单位；

so ，数据从 RAM 写到 SWAP（swap out）的大小，KB 为单位。

（2）free

三、磁盘IO

1、良好状态指标

iowait % < 20%
提高命中率的一个简单方式就是增大文件缓存区面积，缓存区越大预存的页面就越多，命中率也越高。
Linux 内核希望能尽可能产生次缺页中断（从文件缓存区读），并且能尽可能避免主缺页中断（从硬盘读），这样随着次缺页中断的增多，文件缓存区也逐步增大，直到系统只有少量可用物理内存的时候 Linux 才开始释放一些不用的页。

2、监控工具

(1)

这台机器总共有 256MB 物理内存（MemTotal），90MB 左右可用内存（MemFree），8MB左右用来做磁盘缓存（Buffers），40MB左右用来做文件缓存区（Cached）。

(2)sar

await表示平均每次设备I/O操作的等待时间（以毫秒为单位）。
svctm表示平均每次设备I/O操作的服务时间（以毫秒为单位）。
%util表示一秒中有百分之几的时间用于I/O操作。
如果svctm的值与await很接近，表示几乎没有I/O等待，磁盘性能很好，如果await的值远高于svctm的值，则表示I/O队列等待太长，系统上运行的应用程序将变慢。
如果%util接近100%，表示磁盘产生的I/O请求太多，I/O系统已经满负荷的在工作，该磁盘可能存在瓶颈。

(3)iostat

rrqm/s: 每秒进行 merge 的读操作数目。即 delta(rmerge)/s
wrqm/s: 每秒进行 merge 的写操作数目。即 delta(wmerge)/s
r/s: 每秒完成的读 I/O 设备次数。即 delta(rio)/s
w/s: 每秒完成的写 I/O 设备次数。即 delta(wio)/s
rsec/s: 每秒读扇区数。即 delta(rsect)/s
wsec/s: 每秒写扇区数。即 delta(wsect)/s
rkB/s: 每秒读K字节数。是 rsect/s 的一半，因为每扇区大小为512字节。(需要计算)
wkB/s: 每秒写K字节数。是 wsect/s 的一半。(需要计算)
avgrq-sz: 平均每次设备I/O操作的数据大小 (扇区)。delta(rsect+wsect)/delta(rio+wio)
avgqu-sz: 平均I/O队列长度。即 delta(aveq)/s/1000 (因为aveq的单位为毫秒)。
await: 平均每次设备I/O操作的等待时间 (毫秒)。即 delta(ruse+wuse)/delta(rio+wio)
svctm: 平均每次设备I/O操作的服务时间 (毫秒)。即 delta(use)/delta(rio+wio)
%util: 一秒中有百分之多少的时间用于 I/O 操作，或者说一秒中有多少时间 I/O 队列是非空的。即 delta(use)/s/1000 (因为use的单位为毫秒)

如果 %util 接近 100%，说明产生的I/O请求太多，I/O系统已经满负荷，该磁盘可能存在瓶颈。
idle小于70% IO压力就较大了,一般读取速度有较多的wait.

同时可以结合vmstat 查看查看b参数(等待资源的进程数)和wa参数(IO等待所占用的CPU时间的百分比,高过30%时IO压力高)

四、Network IO

对于UDP

1、良好状态指标

接收、发送缓冲区不长时间有等待处理的网络包

2、监控工具

netstat

对于UDP服务，查看所有监听的UDP端口的网络情况