这篇文章中,主要介绍CPU的一些基础知识.
首先介绍一下Linux kernel中的调度器(scheduler),调度器负责调度系统中的两种资源,一是线程,二是中断。调度器给不同资源不同的优先级。从高到低为:
1.硬件中断(Hardware Interrupts)--这些请求由硬件触发,比如磁盘已经完成了读写任务或是网卡受到了新的数据包。
2.软件中断(Software Interrupts)--这里指的是维护内核运行的内核态软件中断。比如内核的时钟管理进程。
3.实时进程(Real time threads)--实时进程比内核本身具备更高的优先级,它可以抢占内核的CPU时间片,在2.4内核是一个不可抢占的内核,它中不支持实时程序。
4.内核进程(Kernel threads)--包括所以的内核程序。
5.用户进程(User threads)--所有运行在用户态的进程。
关于CPU,有3个重要的概念:上下文切换(context switchs),运行队列(Run queue)和使用率(utilization)。
上下文切换:
目前流行的CPU在同一时间内只能运行一个线程,超线程的处理器可以在同一时间运行多个线程(包括多核CPU),Linux内核会把多核的处理器当作多个单独的CPU来识别。
一个标准的Linux内核何以支持运行50~50000个进程运行,对于普通的CPU,内核会调度和执行这些进程。每个进程都会分到CPU的时间片来运行,当一个进程用完时间片或者被更高优先级的进程抢占后,它会备份到CPU的运行队列中,同时其他进程在CPU上运行。这个进程切换的过程被称作上下文切换。过多的上下文切换会造成系统很大的开销。
运行队列:
每个CPU都会维持一个运行队列,理想情况下,调度器会不断让队列中的进程运行。进程不是处在sleep状态就是run able状态。如果CPU过载,就会出现调度器跟不上系统的要求,导致可运行的进程会填满队列。队列愈大,程序执行时间就愈长。“load”用来表示运行队列,用top命令我们可以看到CPU一分钟,5分钟和15分钟内的运行队列的大小。这个值越大表明系统负荷越大。
CPU使用率:
CPU使用率可分为一下几个部分
User
Time—执行用户进程的时间百分比;
System
Time—执行内核进程和中断的时间百分比;
Wait
IO—因为IO等待而使CPU处于idle状态的时间百分比;
Idle—CPU处于Idle状态的时间百分比。
关于时间片和动态优先级:
时间片对于CPU来说是很关键的参数,如果时间片太长,就会使系统的交互性能变差,用户感觉不到并行。如果太短,又会造成系统频繁的上下文切换,使性能下降。对于IO Bound的系统来讲并不需要太长的时间片,因为系统主要是IO操作;而对于CPU Bound的系统来说需要长的时间片以保持cache的有效性。
每一个进程启动的时候系统都会给出一个默认的优先级,但在运行过程中,系统会根据进程的运行状况不断调整优先级,内核会升高或降低进程的优先级(每次增加或降低5),判断标准是根据进程处于sleep状态的时间。IO Bound进程大部分时间在sleep状态,所以内核会调高它的优先级,CPU Bound进程会被内核惩罚降低优先级。因此,如果一个系统上即运行IO Bound进程,又运行CPU Bound进程,我们会发现,IO Bound进程的性能不会下降,而CPU Bound进程性能会不断下降。
我们运行一个CPU Bound的程序:cpu-hog。用ps命令可以看出它的优先级在不断下降。
term1# ./cpu-hog
term2# while :; do ps -eo pid,ni,pri,pcpu,comm |
egrep
'hog|PRI'; sleep 1;
done
PID NI PRI %CPU
COMMAND
22855 0 20 84.5
cpu-hog
PID NI PRI %CPU
COMMAND
22855 0 18 89.6
cpu-hog
PID NI PRI %CPU
COMMAND
22855 0 15 92.2
cpu-hog
PID NI PRI %CPU
COMMAND
22855 0 15 93.8
cpu-hog
我们运行find命令,是一个IO Bound的程序,可以观察到它的优先级不断提高。
term1# find /
term2# while :; do ps -eo pid,ni,pri,pcpu,comm |
egrep
'find|PRI'; sleep 1;
done
PID NI PRI %CPU
COMMAND
23101 0 20 0.0 find
PID NI PRI %CPU
COMMAND
23101 0 21 4.0 find
PID NI PRI %CPU
COMMAND
23101 0 23 3.5 find
PID NI PRI %CPU
COMMAND
23101 0 23 4.3 find
PID NI PRI %CPU
COMMAND
23101 0 23 4.2 find
PID NI PRI %CPU
COMMAND
23101 0 23 4.4 find
如果同时运行2个程序就可看出明显的变化
#while :; do ps -eo pid,ni,pri,pcpu,comm | egrep
'find|hog';
sleep 1; done
23675 0 20 70.9
cpu-hog
23676 0 20 5.6 find
23675 0 20 69.9
cpu-hog
23676 0 21 5.6 find
23675 0 20 70.6
cpu-hog
23676 0 23 5.8 find
23675 0 19 71.2
cpu-hog
23676 0 23 6.0 find
23675 0 19 71.8
cpu-hog
23676 0 23 6.1 find
23675 0 18 72.8
cpu-hog
23676 0 23 6.2 find
23675 0 16 73.2
cpu-hog
23676 0 23 6.6 find
23675 0 14 73.9
cpu-hog
正如我们之前讨论的任何系统的性能比较都是基于基线的,并且监控CPU的性能就是以上3点,运行队列、CPU使用率和上下文切换。以下是一些对于CPU很普遍的性能要求:
1.对于每一个CPU来说运行队列不要超过3,例如,如果是双核CPU就不要超过6;
2.如果CPU在满负荷运行,应该符合下列分布,
a)User Time:65%~70%
b)System Time:30%~35%
c)Idle:0%~5%
3.对于上下文切换要结合CPU使用率来看,如果CPU使用满足上述分布,大量的上下文切换也是可以接受的。
常用的监视工具有,vmstat, top,dstat和mpstat.
# vmstat 1
procs -----------memory---------- ---swap--
-----io---- --system-- ----cpu----
r b swpd free buff cache si so bi bo in cs us sy
id wa
0 0 104300 16800 95328 72200 0 0 5 26 7 14 4 1 95
0
0 0 104300 16800 95328 72200 0 0 0 24 1021 64 1 1
98 0
0 0 104300 16800 95328 72200 0 0 0 0 1009 59 1 1
98 0
r表示运行队列的大小,
b表示由于IO等待而block的线程数量,
in表示中断的数量,
cs表示上下文切换的数量,
us表示用户CPU时间,
sys表示系统CPU时间,
wa表示由于IO等待而是CPU处于idle状态的时间,
id表示CPU处于idle状态的总时间。
dstat可以给出每一个设备产生的中断数:
# dstat -cip 1
----total-cpu-usage---- ----interrupts--- ---procs---
usr sys idl wai hiq siq| 15 169 185 |run blk new
6 1 91 2 0 0| 12 0 13 | 0 0 0
1 0 99 0 0 0| 0 0 6 | 0 0 0
0 0 100 0 0 0| 18 0 2 | 0 0 0
0 0 100 0 0 0| 0 0 3 | 0 0 0
我们可以看到这里有3个设备号15,169和185.设备名和设备号的关系我们可以参考文件/proc/interrupts,这里185代表网卡eth1.
# cat /proc/interrupts
CPU0
0: 1277238713 IO-APIC-edge timer
6: 5 IO-APIC-edge floppy
7: 0 IO-APIC-edge parport0
8: 1 IO-APIC-edge rtc
9: 1 IO-APIC-level acpi
14: 6011913 IO-APIC-edge ide0
15: 15761438 IO-APIC-edge ide1
169: 26 IO-APIC-level Intel
82801BA-ICH2
185: 16785489 IO-APIC-level eth1
193: 0 IO-APIC-level uhci_hcd:usb1
mpstat可以显示每个CPU的运行状况,比如系统有4个CPU。我们可以看到:
# mpstat –P ALL 1
Linux 2.4.21-20.ELsmp
(localhost.localdomain) 05/23/2006
05:17:31 PM CPU %user %nice %system %idle
intr/s
05:17:32 PM all 0.00 0.00 3.19 96.53
13.27
05:17:32 PM 0 0.00 0.00 0.00 100.00
0.00
05:17:32 PM 1 1.12 0.00 12.73 86.15
13.27
05:17:32 PM 2 0.00 0.00 0.00 100.00
0.00
05:17:32 PM 3 0.00 0.00 0.00 100.00
0.00
总结的说,CPU性能监控包含以下方面:
检查系统的运行队列,确保每一个CPU的运行队列不大于3.
确保CPU使用分布满足70/30原则(用户70%,系统30%)。
如果系统时间过长,可能是因为频繁的调度和改变优先级。
CPU Bound进程总是会被惩罚(降低优先级)而IO Bound进程总会被奖励(提高优先级)。
CPU性能指标
1. 用户进程使用CPU的比率
2.系统进程使用CPU的比率
3. WIO, 等待I/O 而是CPU处于空闲状态的比率。
4. CPU的空闲率
5. CPU用于上下文交换的比率
6,nice
7,real-time
8,运行进程队列的长度
9,平均负载
Linux下常用监控CPU性能的工具有
1. iostat www.2cto.com
只能查看所有CPU的平均信息
2. vmstat
能查看所有CPU的平均信息,
能查看CPU队列信息
3. mpstat
能查看单个和所有的CPU信息。
4. sar
与mpstat类似
5. top
6. nmon
iostat
[plain]
$ iostat
Linux 2.6.18-92.el5 08/30/2012
avg-cpu: %user %nice %system
%iowait %steal %idle
1.16
0.01 0.62 0.18
0.00 98.03
vmstat
[plain]
$ vmstat -n 5
procs -----------memory---------- ---swap-- -----io---- --system--
-----cpu------
r b swpd
free buff
cache si so
bi bo in cs us
sy id wa st
0 0 96 1261196 981892 3638872 0 0
0 16 1
1 1
1 98 0 0
-n 5 参数的意义是每隔 5 秒刷新一次
procs www.2cto.com
r --
下面的数字代表运行的序列。如果这个值连续大于系统的CPU个数表示系统运行较慢, 有多数进程等待CPU。
如果r的个数大于CPU的4倍的话, 则系统面临CPU短缺或是CPU的速率过低,造成系统运行过慢。
System
in -- 每秒产生的中断次数
cs -- 每秒产生的上下文切换次数。
这两个值越大,系统进程消耗的CPU的时间越大。
CPU
us --
用户进程消耗CPU的时间百分比。长期居高不下, 就需要优化程序了。
sy --
系统进程消耗CPU的时间百分比。 sy 值高, 并不是良性的表现。
wa --
IO等待消耗的CPU时间百分比, 值高时,说明IO等待比较严重, 可能由于磁盘大量随机访问造成, 也有可能磁盘出现瓶颈。
id -- CPU
处于空闲时间百分比。如果持续为0且出现sy 是us
两倍状况,则系统面临CPU资源短缺。当发生此问题的时候请先调整应用程序对CPU的占用情况.使得应用程序能够更有效的使用CPU.同时可以考虑增加更多的CPU.
mpstat - (Multiprocessor Statistics)
实施监控, 信息存放在 /proc/stat文件中
[sql]
$ mpstat -P ALL 2 10
Linux 2.6.18-92.el5 () 08/30/2012
www.2cto.com
08:16:34 PM CPU %user
%nice %sys
%iowait %irq
%soft %steal
%idle intr/s
08:16:36 PM all 0.78 0.00
0.26 0.26 0.00
0.26 0.00 98.44 1058.85
08:16:36 PM 0
0.52 0.00 0.52
0.00 0.00 0.52
0.00 98.44
1058.85
08:16:36 PM 1
0.52 0.00 0.00
0.00 0.00 0.00
0.00 99.48
0.00
以上意思是: 每隔2秒采样所有CPU的使用状况, 总过采样10次。语法如下:
mpstat [-P {|ALL}] [internal [count]]
-P 监控哪个CPU, 一般使用ALL就可以了
Internal 间隔的时间
count 采样的次数
输出参数意义
%user -- 用户态CPU时间比
%nice -- 负进程的CPU时间
%system - 核心态时间
iowait -- IO 等待时间
irq --
soft
idle
intr/s 每秒CPU接收中断的次数
sar
[plain]
$
sar -u 2 10
Linux 2.6.18-92.el5 () 08/30/2012
www.2cto.com
08:28:36 PM CPU %user
%nice %system %iowait %steal %idle
08:28:38 PM all 0.26 0.00 0.00 0.78 0.00 98.97
08:28:40 PM all 0.52 0.00 0.52 0.00 0.00 98.97
sar [options] [-A] [-o file] t [n]
在命令行中,n 和t 两个参数组合起来定义采样间隔和次数,t为采样间隔,是必须有
的参数,n为采样次数,是可选的,默认值是1,-o file表示将命令结果以二进制格式
存放在文件中,file 在此处不是关键字,是文件名。options 为命令行选项,sar命令
的选项很多,下面只列出常用选项:
-A:所有报告的总和。
-u:CPU利用率
-v:进程、I节点、文件和锁表状态。
-d:硬盘使用报告。
-r:内存和交换空间的使用统计。
-g:串口I/O的情况。
-b:缓冲区使用情况。
-a:文件读写情况。
-c:系统调用情况。
-q:报告队列长度和系统平均负载
-R:进程的活动情况。
-y:终端设备活动情况。
-w:系统交换活动。
-x { pid | SELF | ALL
}:报告指定进程ID的统计信息,SELF关键字是sar进程本身的统计,ALL关键字是所有系统进程的统计
www.2cto.com
%user:CPU处在用户模式下的时间百分比。
%nice:CPU处在带NICE值的用户模式下的时间百分比。
%system:CPU处在系统模式下的时间百分比。
%iowait:CPU等待输入输出完成时间的百分比。
%steal:管理程序维护另一个虚拟处理器时,虚拟CPU的无意识等待时间百分比。
%idle:CPU空闲时间百分比。
在所有的显示中,我们应主要注意%iowait和%idle,%iowait的值过高,表示硬盘存在I/O瓶颈,%idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,有可能是CPU等待分配内存,此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU。
用sar进行运行进程队列长度分析:
#sar -q 2 10
Linux 2.6.18-53.el5PAE (localhost.localdomain)
03/28/2009
07:58:14 PM runq-sz plist-sz
ldavg-1 ldavg-5
ldavg-15
07:58:16 PM 0 493
0.64 0.56
0.49
07:58:18 PM 1 491
0.64 0.56
0.49
07:58:20 PM 1 488
0.59 0.55
0.49
07:58:22 PM 0 487
0.59 0.55
0.49
07:58:24 PM 0 485
0.59 0.55
0.49
07:58:26 PM 1 483
0.78 0.59
0.50
07:58:28 PM 0 481
0.78 0.59
0.50
07:58:30 PM 1 480
0.72 0.58
0.50
07:58:32 PM 0 477
0.72 0.58
0.50
07:58:34 PM 0 474
0.72 0.58
0.50
Average: 0 484 0.68 0.57 0.49
www.2cto.com
runq-sz 准备运行的进程运行队列。
plist-sz 进程队列里的进程和线程的数量
ldavg-1 前一分钟的系统平均负载(load average)
ldavg-5 前五分钟的系统平均负载(load average)
ldavg-15 前15分钟的系统平均负载(load average)
顺便说一下load avarage的含义
load average可以理解为每秒钟CPU等待运行的进程个数.
在Linux系统中,sar -q、uptime、w、top等命令都会有系统平均负载load
average的输出,那么什么是系统平均负载呢?
系统平均负载被定义为在特定时间间隔内运行队列中的平均任务数。如果一个进程满足以下条件则其就会位于运行队列中:
www.2cto.com
- 它没有在等待I/O操作的结果
- 它没有主动进入等待状态(也就是没有调用'wait')
- 没有被停止(例如:等待终止)
例如:
# uptime
20:55:40 up 24 days, 3:06, 1
user, load average: 8.13, 5.90, 4.94
命令输出的最后内容表示在过去的1、5、15分钟内运行队列中的平均进程数量。
一般来说只要每个CPU的当前活动进程数不大于3那么系统的性能就是良好的,如果每个CPU的任务数大于5,那么就表示这台机器的性能有严重问题。对
于上面的例子来说,假设系统有两个CPU,那么其每个CPU的当前任务数为:8.13/2=4.065。这表示该系统的性能是可以接受的。