分析linux系统的运行性能,Linux系统如何分析CPU的性能瓶颈

最新推荐文章于 2022-11-11 23:37:52 发布

戚琳

最新推荐文章于 2022-11-11 23:37:52 发布

阅读量178

点赞数

文章标签：分析linux系统的运行性能

以下内容来自转载和自己的初用体验。

vmstat

[root@master ~]# vmstat -n 3

procs ---memory-- --swap-- --io-- --system-- --cpu---

r b swpd free buff cache si so bi bo in

cs us sy id wa st

0 0 115516 6043024 430340 8691840 0 0

2 22 1 1 1 0 99 0 0 0 0 115516 6043024

430340 8691840 0 0 0 0 1124 751

0 0 100 0 0 0 0 115516 6043148

430344 8691840 0 0 0 25 1070 762

0 0 100 0 0

PROC

如果在processes中运行的序列是连续的大于在系统中的CPU的个数表示系统现在运行比较慢，有多数的进程等待CPU。

如果r的输出数大于系统中可用CPU个数的4倍的话，则系统面临着CPU短缺的问题，或者是CPU的速率过低，系统中有多数的进程在等待CPU，造成系统中进程运行过慢。

SYSTEM

in: 每秒产生的中断次数

cs: 每秒产生的上下文切换次数

上面2个值越大，会看到由内核消耗的CPU时间会越大

CPU

us:用户进程消耗的CPU时间百分比，其中us值比较高时，说明用户进程消耗的CPU时间多；如果长期超50%的使用，那么我们该考虑优化程序算法或者进行加速

sy: 内核进程消耗的CPU时间百分比(sy的值高时，说明系统内核消耗的CPU资源多，并不是良性表现，我们应该检查原因)

wa:IO等待消耗的CPU时间百分比(值高时，说明IO等待比较严重，这可能由于磁盘大量作随机访问造成，也可能磁盘出现瓶颈，如块操作)

id: CPU处于空闲状态的百分比，如果空闲时间持续为0并且系统时间是用户时间的两倍，那么系统则面临CPU资源的短缺

解决方法：

当发生以上问题的时候请先调整应用程序对CPU的占用情况，使得应用程序能够更有效的使用CPU，同时可以考虑增加更多的CPU，关于CPU的使用情况还可以结合mpstat、ps

aux 、top、mpstat

-a等等一些相应的命令来综合考虑关于具体的CPU的使用情况，和那些进程在占用大量的CPU时间，一般情况下，应用程序的问题会比较大一些。

sar

Usage: sar [ options... ] [ [ ]

]

Options are:

[ -A ] [ -b ] [ -B ] [ -c ] [ -d ] [ -i ] [ -p ] [

-q ]

[ -r ] [ -R ] [ -t ] [ -u ] [ -v ] [ -V ] [ -w ] [ -W ] [ -y ]

[ -I { | SUM | ALL | XALL } ] [ -P { | ALL

} ]

[ -n { DEV | EDEV | NFS | NFSD | SOCK | ALL } ]

[ -x { | SELF | ALL } ] [ -X { | SELF | ALL

} ]

[ -o [ ] | -f [ ] ]

[ -s [ ] ] [ -e [ ] ]

在命令行中，n和t两个参数组合起来定义采样间隔和次数，t为采样间隔，是必须有的参数，n为采样次数，是可选的，默认值为1， -o

file表示将命令的结果以二进制格式存放

在文件中，options为命令可选项：

-A：所有报告的总和。

-u：CPU利用率

-v：进程、I节点、文件和锁表状态。

-d：硬盘使用报告。

-r：内存和交换空间的使用统计。

-g：串口I/O的情况。

-b：缓冲区使用情况。

-a：文件读写情况。

-c：系统调用情况。

-q：报告队列长度和系统平均负载

-R：进程的活动情况。

-y：终端设备活动情况。

-w：系统交换活动。

-x { pid | SELF | ALL

}：报告指定进程ID的统计信息，SELF关键字是sar进程本身的统计，ALL关键字是所有系统进程的统计。

用sar进行CPU利用率的分析

[root@master ~]# sar -u 2 10

Linux 2.6.18-194.el5 (master) 12/13/2012

06:50:01 PM

CPU %user

%nice %system %iowait

%steal %idle

06:50:03 PM

all

1.50

0.08

0.58

7.24 0.00

90.60

06:50:05 PM

all

3.25

0.17

0.58

6.74 0.00

89.26

06:50:07 PM

all

1.33

0.08

0.67

8.01 0.00

89.91

06:50:09 PM

all

1.25

0.00

0.67

7.35 0.00

90.73

06:50:11 PM

all

1.08

0.25

0.42

7.75 0.00

90.50

06:50:13 PM

all

1.33

0.08

0.58

8.00 0.00

90.00

06:50:15 PM

all

1.42

0.08

0.42

7.18 0.00

90.90

06:50:17 PM

all

1.25

0.08

0.42

8.01 0.00

90.24

06:50:19 PM

all

1.33

0.08

0.50

8.17 0.00

89.92

06:50:21 PM

all

1.25

0.25

0.42

7.17 0.00

90.92

Average:

all

1.50

0.12

0.53

7.56 0.00

90.30

在显示内容包括：

%user：CPU处在用户模式下的时间百分比

%nice：CPU处在带NICE值的用户模式下的时间百分比

%system：CPU处在系统模式下的时间百分比

%iowait：CPU等待输入输出完成时间的百分比

%steal：管理程序维护另一个虚拟处理器时，虚拟CPU的无意识等待时间百分比

%idle：CPU空闲时间百分比

在所有的显示中，我们应该主要注意%iowait和%idle，

%iowait的值过高，表示硬盘存在I/O瓶颈，%idle值高，表示CPU较空闲。

如果%idle值高但系统响应慢时，有可能是CPU等待分配内存，此时应加大内存容量。反之如果持续低于10，那么系统的CPU处理能力相对较低，表明系统中最需要解决的资源是CPU。

用sar进行运行进程队列长度分析：

[root@master ~]# sar -q 2 10

Linux 2.6.18-194.el5 (master) 12/13/2012

06:57:55 PM runq-sz plist-sz

ldavg-1 ldavg-5 ldavg-15

06:57:57 PM

0 1196

0.63

0.48 0.30

06:57:59 PM

0 1196

0.63

0.48 0.30

06:58:01 PM

0 1196

0.58

0.47 0.30

06:58:03 PM

0 1198

0.58

0.47 0.30

06:58:05 PM

0 1198

0.61

0.48 0.30

runq-sz：准备运行的进程运行队列

plist-sz：进程队列里的进程和线程的数量

ldavg-1：前一分钟的系统平均负载(load average)

ldavg-5：前五分钟的系统平均负载

ldavg-15：前15分钟的系统平均负载

顺便说一下load average的含义

load avarage可以理解为每秒钟CPU等待运行的进程个数。

在liunx系统中，有很多命令都会有系统平均负载load average的输出，那么什么是系统负载呢？

定义：在特定时间间隔内运行队列中的平均任务数。如果一个进程满足以下条件则其就会位于运行队列中：

1、它没有在等待I/O操作的结果

2、它没有主动进入等待状态(也就是wait)

3、没有被停止

例如：

[root@master ~]# uptime

09:34:05 up 69 days, 4:00, 1 user, load

average: 0.08, 0.02, 0.01

命令输出的最后内容表示在过去的1、5、15分钟内运行队列中的平均进程数量。

一般来说只要每个CPU的当前活动进程数不大于3那么系统的性能就是良好的，如果每个CPU的任务数大于5，那么就表示这台机器的性能有严重问题。

对于上面的例子来说，假设系统有两个CPU，那么其每个CPU的当前任务数为：0.08/2=0.04，这表示该系统的性能是可以接受的。

这里有个思考问题，就是当CPU是支持超线程的时候，那么这时候是除以物理个数，还是逻辑个数？？？？？

iostat

[root@master ~]# iostat -c 2 10

Linux 2.6.18-194.el5 (master) 12/14/2012