Linux系统整体性能监控工具详解

Linux中常用的监控CPU整体性能工具有:

   mpstat: mpstat 不但能查看所有CPU的平均信息,还能查看指定CPU的信息。

   vmstat:只能查看所有CPU的平均信息;查看cpu队列信息;

   iostat: 只能查看所有CPU的平均信息。

   sar: 与mpstat 一样,不但能查看CPU的平均信息,还能查看指定CPU的信息。

   top:显示的信息同ps接近,但是top可以了解到CPU消耗,可以根据用户指定的时间来更新显示。

  oprofile:OProfile 是一个低开销的系统全局的性能监视工具。它使用处理器上的性能监视硬件来检索关于内核以及系统上的可执行文件的信息,例如内存是何时被引用的;L2 缓存请求数量;收到的硬件中断数量等

下面,我挨个给大家做演示并贴图,然后再详细解释每一个可能有的问题

 

1、 /proc/stat/

  包含了所有CPU活动的信息,该文件中的所有值都是从系统启动开始累计到当前时刻。

显示内容如附件图中所示

输出解释

  CPU 以及CPU0、CPU1、CPU2、CPU3每行的每个参数意思(以第一行为例)为:

  参数 解释  (从左到右依次列举)

  user  从系统启动开始累计到当前时刻,用户态的CPU时间(单位:jiffies) ,不包含 nice值为负进程。1jiffies=0.01秒

  nice  从系统启动开始累计到当前时刻,nice值为负的进程所占用的CPU时间(单位:jiffies)

  system  从系统启动开始累计到当前时刻,核心时间(单位:jiffies)

  idle  从系统启动开始累计到当前时刻,除硬盘IO等待时间以外其它等待时间(单位:jiffies)

  iowait  从系统启动开始累计到当前时刻,硬盘IO等待时间(单位:jiffies) ,

  irq  从系统启动开始累计到当前时刻,硬中断时间(单位:jiffies)

  softirq  从系统启动开始累计到当前时刻,软中断时间(单位:jiffies)

    steal  - 在虚拟环境下 CPU 花在处理其他作业系统的时间,Linux 2.6.11 开始才开始支援

    guest  - 在 Linux 内核控制下 CPU 为 guest 作业系统运行虚拟 CPU 的时间,Linux 2.6.24 开始才开始支援


  CPU时间=user+system+nice+idle+iowait+irq+softirq

  “intr”这行给出中断的信息,第一个为自系统启动以来,发生的所有的中断的次数;然后每个数对应一个特定的中断自系统启动以来所发生的次数。

  “ctxt”给出了自系统启动以来CPU发生的上下文交换的次数。

  “btime”给出了从系统启动到现在为止的时间,单位为秒。

  “processes (total_forks) 自系统启动以来所创建的任务的个数目。

  “procs_running”:当前运行队列的任务的数目。

  “procs_blocked”:当前被阻塞的任务的数目。

[ 本帖最后由 丁宁 于 2009-3-16 12:07 编辑 ]

proc_stat.JPG (84.99 KB)

下载次数:6

2009-3-16 10:20

proc_stat.JPG

2、 /proc/loadavg

  该文件中的所有值都是从系统启动开始累计到当前时刻。该文件只给出了所有CPU的集合信息,不能给出每个CPU的信息。


hhl:/proc/> cat loadavg
0.00 0.00 0.00 2/94 3160

每个值的含义为:

  参数 解释  依然是从左到右的顺序

  lavg_1    1-分钟平均负载

  lavg_5     5-分钟平均负载

  lavg_15   15-分钟平均负载

  nr_running    在采样时刻,运行队列的任务的数目,与/proc/stat的procs_running表示相同意思

  nr_threads    在采样时刻,系统中活跃的任务的个数(不包括运行已经结束的任务)

  last_pid    最大的pid值,包括轻量级进程,即线程。

  假设当前有两个CPU,则每个CPU的当前任务数为 lavg_1 / 2
3、uptime

  uptime是Linux系统常用的命令,用来报告系统已经运行多长时间,依此显示的信息:现在时间,系统已经运行了的时间,目前有多少登陆用户, 1分钟系统平均负载,5分钟系统平均负载,15分钟系统平均负载。该命令从/proc/loadavg 中获得load average的信息。


hhl:/proc/> uptime
12:11:50 up  1:00,  1 user,  load average: 0.00, 0.00, 0.00

通常来说:如果系统有n个CPU而且平均负载小于n,则说明某些CPU还有空闲的时间片。通过该命令,你能知道CPU是否繁忙,但是无法知道为什么忙。

下面要用到的工具是 mpstat ,由于RHEL5上并没有自带。所以咱自己动手搞一个
下载地址是在:http://pagesperso-orange.fr/sebastien.godard/download.html
软件名称是sysstat-9.0.1
到网址中下载gz包:sysstat-9.0.1.tar.gz
下载之后放到系统中自己的目录下
tar zxvf sysstat-9.0.1.tar.gz    进行解压
然后进入目录sysstat-9.0.1
运行  ./configure
运行  make
换成root用户运行 make install
之后就可以在系统任意目录下运行mpstat这个工具了,当然了,还有sysstat包含的其他工具例如:pidstat,sar,iostat……

mpstat

  mpstat是Multiprocessor Statistics的缩写,是实时系统监控工具。其报告与CPU的一些统计信息,这些信息存放在/proc/stat文件中。在多CPUs系统里,其不但能查看所有CPU的平均状况信息,而且能够查看特定CPU的信息。下面只介绍 mpstat与CPU相关的参数,mpstat的语法如下:

  mpstat [-P {|ALL}] [internal [count]]
参数的含义如下:

  参数 解释

  -P {|ALL} 表示监控哪个CPU, cpu在[0,cpu个数-1]中取值

  internal 相邻的两次采样的间隔时间

  count 采样的次数,count只能和delay一起使用

  当没有参数时,mpstat则显示系统启动以后所有信息的平均值。有interval时,第一行的信息自系统启动以来的平均信息。从第二行开始,输出为前一个interval时间段的平均信息。与CPU有关的输出的含义如下:

  参数 解释 从/proc/stat获得数据

  CPU 处理器ID

  user 在internal时间段里,用户态的CPU时间(%) ,不包含 nice值为负 进程 usr/total*100

  nice 在internal时间段里,nice值为负进程的CPU时间(%) nice/total*100

  system 在internal时间段里,核心时间(%) system/total*100

  iowait 在internal时间段里,硬盘IO等待时间(%) iowait/total*100

  irq 在internal时间段里,软中断时间(%) irq/total*100

  soft 在internal时间段里,软中断时间(%) softirq/total*100

  idle 在internal时间段里,CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间 (%) idle/total*100

  intr/s 在internal时间段里,每秒CPU接收的中断的次数 intr/total*100

  CPU总的工作时间=total_cur=user+system+nice+idle+iowait+irq+softirq

  total_pre=pre_user+ pre_system+ pre_nice+ pre_idle+ pre_iowait+ pre_irq+ pre_softirq

  user=user_cur – user_pre

  total=total_cur-total_pre

其中_cur 表示当前值,_pre表示interval时间前的值。上表中的所有值可取到两位小数点。
mpstat 举例1:average mode (粗略信息)

  当mpstat不带参数时,输出为从系统启动以来的平均值。

hhl:/home/hhl/test/> mpstat
Linux 2.6.18-8.el5xen (localhost.localdomain)   03/16/09        _i686_  (1 CPU)

14:14:23     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle
14:14:23     all    0.43    1.17    9.52    2.98    0.13    0.06    0.09    0.00   85.63

呵呵,看了这个,是不是明白了/proc/stat文件中关于cpu参数的来源了
mpstat 举例2:
每2秒产生了所有处理器的统计数据报告

  下面的命令可以每2秒产生了所有处理器的统计数据报告,一共产生三个interval 的信息,然后再给出这三个interval的平均信息。默认时,输出是按照CPU 号排序。第一个行给出了从系统引导以来的所有活跃数据。接下来每行对应一个处理器的活跃状态。

hhl:/home/hhl/test/> mpstat -P ALL 2 3
Linux 2.6.18-8.el5xen (localhost.localdomain)   03/16/09        _i686_  (1 CPU)

14:22:57     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle
14:22:59     all    0.00    0.00    0.50    1.50    0.00    0.00    0.00    0.00   98.00
14:22:59       0    0.00    0.00    0.50    1.50    0.00    0.00    0.00    0.00   98.00

14:22:59     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle
14:23:01     all    0.00    0.00    0.00    0.00    0.50    0.00    0.50    0.00   99.00
14:23:01       0    0.00    0.00    0.00    0.00    0.50    0.00    0.50    0.00   99.00

14:23:01     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle
14:23:03     all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
14:23:03       0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

Average:     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle
Average:     all    0.00    0.00    0.17    0.50    0.17    0.00    0.17    0.00   99.00
Average:       0    0.00    0.00    0.17    0.50    0.17    0.00    0.17    0.00   99.00
mpstat要根据具体目标要求来确定使用的方法,比如你要开一个很大的文件,想一直监控系统的状况,就可以用类似
mpstat  3  100 这样每隔3秒显示一次、一共显示一百次的命令。
下面要讲到的vmstat 和iostat 也需要注意这一问题。
5、vmstat

  vmstat是Virtual Meomory Statistics(虚拟内存统计)的缩写, 是实时系统监控工具。该命令通过使用knlist子程序和/dev/kmen伪设备驱动器访问这些数据,输出信息直接打印在屏幕。vmstat反馈的与CPU相关的信息包括:

  (1)多少任务在运行

  (2)CPU使用的情况

  (3)CPU收到多少中断

  (4)发生多少上下文切换

  下面只介绍 Vmstat与CPU相关的参数

  vmstat的语法如下:

  vmstat [delay [count]]

  参数的含义如下:

  参数 解释

  delay 相邻的两次采样的间隔时间

  count 采样的次数,count只能和delay一起使用

  当没有参数时,vmstat则显示系统启动以后所有信息的平均值。有delay时,第一行的信息自系统启动以来的平均信息。从第二行开始,输出为前一个delay时间段的平均信息。当系统有多个CPU时,输出为所有CPU的平均值。

  与CPU有关的输出的含义 (采用进一法)

  参数 解释 从/proc/stat获得数据

  任务的信息

  r 在internal时间段里,运行队列里等待CPU的任务(任务)的个数,即不包含vmstat进程 procs_running-1

  b 在internal时间段里,被资源阻塞的任务数(I/0,页面调度,等等.) ,通常情况下是接近0的 procs_blocked

  CPU信息 所有值取整(四舍五入)

  us 在internal时间段里,用户态的CPU时间(%),包含 nice值为负进程 (user+nice)/total*100

  sy 在internal时间段里,核心态的CPU时间(%) (system+irq+softirq)/total*100

id 在internal时间段里,cpu空闲的时间,不包括等待i/o的时间(%) idle/total*100

  wa 在internal时间段里,等待i/o的时间(%) iowait/total*100

  系统信息

  in 在internal时间段里,每秒发生中断的次数 intr/interval

  cs 在internal时间段里,每秒上下文切换的次数,即每秒内核任务交换的次数 ctxt/interval

  CODE:
total_cur=user+system+nice+idle+iowait+irq+softirq
total_pre=pre_user+ pre_system+ pre_nice+ pre_idle+ pre_iowait+ pre_irq+ pre_softirq
total=total_cur-total_pre
范例1:average mode (粗略信息)

  当vmstat不带参数时,对应的输出值是从系统启动以来的平均值,而r和b则对应的是完成这一命令时,系统的值。从下面例子,可以看出系统基本出去闲置状态(idle)。自启动以来,CPU在用户态消耗时间为5%,在核心态消耗为本1%,剩下的为闲置时间。需要指出的是:这里的用户态时间包括nice值为负的进程的时间。

hhl:/home/hhl/test/> vmstat
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
0  0      0 447816  69768 149388    0    0   161    25   83   69  1  5 91  2  0
范例2:average mode (详细信息)

  命令格式:

  vmstat –s

  这里只讨论与CPU相关信息。“CPU ticks”表示自系统启动CPU运行时间,这里以tick为时间单位。用tick来西安市us,sy id 和wa的时间;forks指自从系统启动以来,所创建的新任务的个数。这些信息从/proc/stat 的第一行和”processes”行获得。

hhl:/home/hhl/test/> vmstat -s
       748720  total memory
       300904  used memory
       121112  active memory
       140348  inactive memory
       447816  free memory
        69792  buffer memory
       149388  swap cache
      1638392  total swap
            0  used swap
      1638392  free swap
         1635 non-nice user cpu ticks
            0 nice user cpu ticks
         5989 system cpu ticks
       122230 idle cpu ticks
         2745 IO-wait cpu ticks
          479 IRQ cpu ticks
          506 softirq cpu ticks
          100 stolen cpu ticks
       205259 pages paged in
        31627 pages paged out
            0 pages swapped in
            0 pages swapped out
       109404 interrupts
        91350 CPU context switches
   1237188430 boot time
         3139 forks

  结果解释

  参数 描述 /proc/stat

  non-nice user cpu ticks 自系统启动以来,CPU在用户态下运行非nice进程的时间,单位为jiffies user

  nice user cpu ticks 自系统启动以来,CPU在用户态下运行nice进程的时间,单位为jiffies nice

  system cpu ticks 自系统启动以来,CPU处于系统状态的时间,单位为jiffies sys

  idle cpu ticks 自系统启动以来,CPU处于闲置状态的时间,单位为jiffies idle

  IO-wait cpu ticks 自系统启动以来,CPU处理IO中断的时间,单位为jiffies iowait

  IRQ cpu ticks 自系统启动以来,CPU处理硬中断的时间,单位为jiffies irq

  softing cpu ticks 自系统启动以来,CPU处理软中断的时间,单位为jiffies Softirq

  interrupts 自系统启动以来,发生的所有的中断的次数目 Intr

CPU context switches 自系统启动以来,发生的上下文交换的次数 Ctxt

  boot time 自系统启动以来到现在运行的时间,单位为秒。 btime

  forks 自系统启动以来所创建的任务的个数目。 Process
范例3:定期采样(delay [count])

  定期采样数据是指每隔delay时间,采样一次。当count 为0时,vmstat 将不停地定期报告信息;否则当报告count次后,vmstat 命令停止运行。

  第一行的信息如同范例1,是自系统启动以来的平均信息。从第二行开始,每行的意思是:r和b采样那一时刻系统运行队列和等待队列的情况;而usystem参数(in,cs)以及CPU参数(us,sy,id,wa)对应的输出值是系统在前一个delay的情况。

  从下面例子可以看出上下文交换的次数小于中断的发生次数。当系统大部分时间是空闲并且中断大部分是时间中断时,这种现象极可能发生。当时间中断发生时, 因为调度器没有什么任务可调度,所以很少发生上下文切换。

hhl:/home/hhl/test/> vmstat 2 5
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
0  0      0 447692  69832 149388    0    0   131    20   80   66  1  4 93  2  0
0  0      0 447692  69832 149388    0    0     0     0   74   55  0  0 100  0  0
0  0      0 447692  69832 149388    0    0     0     0   71   53  0  0 99  0  0
0  0      0 447692  69840 149380    0    0     0    12   73   57  0  0 100  0  0
0  0      0 447692  69840 149388    0    0     0     0   70   53  0  0 100  0  0
hhl:/home/hhl/test/>
6、iostat

  iostat [-t] [-c] [interval [count]]

  参数的含义如下:

  参数 解释

  T 表示输出采用的时间

  C 表示只显示CPU的信息

  Internal 相邻的两次采样的间隔时间

count 采样的次数,count只能和delay一起使用

  当没有参数时,iostat则显示系统启动以后所有信息的平均值。

  与CPU有关的输出的含义

  参数 解释 从/proc/stat获得

  CPU 处理器ID

  user 在internal时间段里,用户态的CPU时间(%) ,不包含 nice值为负进程 usr/total*100

  nice 在internal时间段里,nice值为负进程的CPU时间(%) nice/total*100

  sys 在internal时间段里,核心时间(%) (system+irq+?softirq)/total*100

  iowait 在internal时间段里,硬盘IO等待时间(%) iowait/total*100

  idle 在internal时间段里,CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间 (%) idle/total*100

  CODE:

total_cur=user+system+nice+idle+iowait+irq+softirq
total_pre=pre_user+ pre_system+ pre_nice+ pre_idle+ pre_iowait+ pre_irq+ pre_softirq
total=total_cur-total_pre
 
有interval时,第一行的信息自系统启动以来的平均信息。从第二行开始,输出为前一个interval时间段的平均信息。

  范例1:
hhl:/home/hhl/test/> iostat
Linux 2.6.18-8.el5xen (localhost.localdomain)   03/16/09        _i686_  (1 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.68    0.00    2.92    1.13    0.08   95.20

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
hda               6.23       167.71        26.42     410550      64686
dm-0             11.23       166.17        26.41     406794      64648
dm-1              0.03         0.23         0.00        560          0
hdc               0.00         0.06         0.00        144          0
 
7、sar

  sar是System Activity Reporter(系统活跃情况报告)的缩写。顾名思义,sar工具将对系统当前的状态进行采样,然后通过计算数据和比例来表达系统的当前运行状态。它的特点是可以连续对系统采样,获得大量的采样数据;采样数据和分析的结果都可以存入文件,所需的负载很小。这些是检查历史数据和一些近来的系统事件。sar用于检查的性能数据类似于vmstat, mpstat和 iostat的显示。 sar的数据是一段时间保存的内容,因此可以察看过去的信息。 lastcomm可以现在系统最近被执行的命令。这些可以用在系统审计中。sa 可以在*BSD和Linux中找到,它给用户在系统审计中更多的选项来收集信息。

  在反馈CPU整体信息方面,sar 反馈的与CPU相关的信息包括:

  (1)多少任务在运行

  (2)CPU使用的情况

  (3)CPU收到多少中断

  (4)发生多少上下文切换

  sar的语法如下:

  sar [-options] [interval [count]]

  其中,internal是两次采样的间隔时间;count是指采样的次数;与CPU相关的options有:

  参数的含义如下:

  参数 解释

  -c 表示输出采用的时间

  -e hh:mm:ss 表示只显示CPU的信息

  -i {irq |SUM|ALL|XALL} 相邻的两次采样的间隔时间

  -P {cpu|ALL}

  -q 显示在采样的时刻,可运行队列的任务的个数,以及系统平均负载

  -u CPU 使用的情况,报告了cpu的用户态,系统态,等待I/O和空闲时间上的百分比。

  -w:每秒上下文交换率

  -o:filename 将结果放在文件里

  -f:filename 表示从file文件中取出数据,如果没有指定-f file,则从标准数据文件
hhl:/var/log/sa/> sar -C -q -w -I SUM 3 2
Linux 2.6.18-8.el5xen (localhost.localdomain)   03/16/09        _i686_  (1 CPU)

16:33:36       proc/s   cswch/s
16:33:39         0.00     60.00

16:33:36         INTR    intr/s
16:33:39          sum     60.67

16:33:36      runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15
16:33:39            0       100      0.00      0.00      0.00

16:33:39       proc/s   cswch/s
16:33:42         0.00     60.00

16:33:39         INTR    intr/s
16:33:42          sum     69.00

16:33:39      runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15
16:33:42            0       100      0.00      0.00      0.00

Average:       proc/s   cswch/s
Average:         0.00     60.00

Average:         INTR    intr/s
Average:          sum     64.83

Average:      runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15
Average:            0       100      0.00      0.00      0.00

hhl:/var/log/sa/> sar -C -q -w -I SUM 3 2
Linux 2.6.18-8.el5xen (localhost.localdomain)   03/16/09        _i686_  (1 CPU)

16:33:36       proc/s   cswch/s
16:33:39         0.00     60.00

16:33:36         INTR    intr/s
16:33:39          sum     60.67

16:33:36      runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15
16:33:39            0       100      0.00      0.00      0.00

16:33:39       proc/s   cswch/s
16:33:42         0.00     60.00

16:33:39         INTR    intr/s
16:33:42          sum     69.00

16:33:39      runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15
16:33:42            0       100      0.00      0.00      0.00

Average:       proc/s   cswch/s
Average:         0.00     60.00

Average:         INTR    intr/s
Average:          sum     64.83

Average:      runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15
Average:            0       100      0.00      0.00      0.00



与CPU有关的输出的含义

  参数 解释 从/proc/stat获得数据

  proc/s 在internal时间段里,每秒上下文切换率 ?processes/?total*100

  cswch 在internal时间段里,每秒上下文切换率 ?ctxt/?total*100

  intr/s 在internal时间段里,每秒CPU接收的中断的次数 ?idle/?total*100

  从/proc/loadavg获得数据

  runq-sz 采样时,运行队列中任务的个数,不包括vmstat 进程。 procs_running-1

  plist-sz 采样时,系统中活跃的任务的个数 nr_threads

ldavg-1 采样的前一秒钟系统的负载(%) lavg_1

  ldavg-5 采样的5秒钟系统的负载(%) lavg_5

  ldavg-15 采样的前15秒钟系统的负载(%) lavg_15
下面输入命令“sar 3 2”,表示每隔3秒显示CPU的状态,共显示2次。

hhl:/var/log/sa/> sar 3 2
Linux 2.6.18-8.el5xen (localhost.localdomain)   03/16/09        _i686_  (1 CPU)

16:36:57        CPU     %user     %nice   %system   %iowait    %steal     %idle
16:37:00        all      0.00      0.00      1.00      0.00      0.00     99.00
16:37:03        all      0.00      0.00      0.67      1.00      0.00     98.33
Average:        all      0.00      0.00      0.83      0.50      0.00     98.67

与CPU有关的输出的含义

  参数 解释 从/proc/stat获得数据

  CPU 处理器ID

  user 在internal时间段里,用户态的CPU时间(%) ,不包含 nice值为负进程 usr/total*100

  nice 在internal时间段里,nice值为负进程的CPU时间(%) nice/total*100

  sys 在internal时间段里,核心时间(%) (system+irq+softirq)/total*100

  iowait 在internal时间段里,硬盘IO等待时间(%) iowait/total*100

  idle 在internal时间段里,CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间 (%) irq/total*100
8、top

  top命令提供了实时的对系统处理器的状态监视,即可以通过用户按键来不断刷新当前状态。如果前台执行该命令,它将独占前台,直到用户终止该程序为止,但是该命令的很多特性都可以通过交互式命令或者在个人定制文件中进行设定。

下面是该命令的语法格式:

  top [-] [d delay] [options]

  一些参数的含义如下:

  参数 解释

  d delay 相邻的两次采样的间隔时间

  q 该选项将使top没有任何延迟的进行刷新。如果调用程序有超级用户权限,那么top将以尽可能高的优先级运行

  -l 不显示空闲进程,默认时,top显示空闲进程

  -S 将系统进程信息也显示于屏幕,默认时,不显示。

  与cPU有关的输出的含义

  参数 解释

  CPU信息 从/proc/stat获得信息

  us 在internal时间段里,用户态的CPU时间(%),不包含nice值为负的任务占用的CPU的时间

  usr/total*100

  ni 在internal时间段里,nice值为负的任务的用户态的Niced进程的CPU时间(%) nice/total*100

  sy 在internal时间段里,核心态的CPU时间(%) system/total*100

  id 在internal时间段里,cpu空闲的时间,不包括等待i/o的时间(%) idle/total*100

  wa 在internal时间段里,等待i/o的时间(%) iowait/total*100

  hi 在internal时间段里,硬中断时间(%) irq/total*100

  si 在internal时间段里,软中断时间(%) softirq/total*100

  任务

  total 采样时,系统全部进程的个数,包括正在运行的top进程,不包括线程。 =running+sleeping+stopped+zombie

  running 采样时,运行队列的进程的个数,但不包含top这个进程 通过判断/proc/pid/status中stat的值。

  sleeping 采样时,可中断和不可中断状态的进程的个数

  stopped 采样时,停止状态的进程的个数

  zombie 采样时,僵尸状态的进程的个数

运行中的参数的含义

  参数 解释

  q 退出程序

  r 重新安排一个进程的优先级别。系统提示用户输入需要改变的进程PID

  S 切换到累计模式

  L 切换显示平均负载和启动时间信息

  T 切换显示进程和CPU状态信息

  M 切换显示内存信息

  s 改变两次刷新之间的延迟时间。系统将提示用户输入新的时间,单位为s。如果有小数,就换算成m s。输入0值则系统将不断刷新,默认值是5 s。需要注意的是如果设置太小的时间,很可能会引起不断刷新,从而根本来不及看清显示的情况,而且系统负载也会大大增加

7、sar

  sar是System Activity Reporter(系统活跃情况报告)的缩写。顾名思义,sar工具将对系统当前的状态进行采样,然后通过计算数据和比例来表达系统的当前运行状态。它的特点是可以连续对系统采样,获得大量的采样数据;采样数据和分析的结果都可以存入文件,所需的负载很小。这些是检查历史数据和一些近来的系统事件。sar用于检查的性能数据类似于vmstat, mpstat和 iostat的显示。 sar的数据是一段时间保存的内容,因此可以察看过去的信息。 lastcomm可以现在系统最近被执行的命令。这些可以用在系统审计中。sa 可以在*BSD和Linux中找到,它给用户在系统审计中更多的选项来收集信息。

  在反馈CPU整体信息方面,sar 反馈的与CPU相关的信息包括:

  (1)多少任务在运行

  (2)CPU使用的情况

  (3)CPU收到多少中断

  (4)发生多少上下文切换

  sar的语法如下:

  sar [-options] [interval [count]]

  其中,internal是两次采样的间隔时间;count是指采样的次数;与CPU相关的options有:

  参数的含义如下:

  参数 解释

  -c 表示输出采用的时间

  -e hh:mm:ss 表示只显示CPU的信息

  -i {irq |SUM|ALL|XALL} 相邻的两次采样的间隔时间

  -P {cpu|ALL}

  -q 显示在采样的时刻,可运行队列的任务的个数,以及系统平均负载

  -u CPU 使用的情况,报告了cpu的用户态,系统态,等待I/O和空闲时间上的百分比。

  -w:每秒上下文交换率

  -o:filename 将结果放在文件里

  -f:filename 表示从file文件中取出数据,如果没有指定-f file,则从标准数据文件7、sar

  sar是System Activity Reporter(系统活跃情况报告)的缩写。顾名思义,sar工具将对系统当前的状态进行采样,然后通过计算数据和比例来表达系统的当前运行状态。它的特点是可以连续对系统采样,获得大量的采样数据;采样数据和分析的结果都可以存入文件,所需的负载很小。这些是检查历史数据和一些近来的系统事件。sar用于检查的性能数据类似于vmstat, mpstat和 iostat的显示。 sar的数据是一段时间保存的内容,因此可以察看过去的信息。 lastcomm可以现在系统最近被执行的命令。这些可以用在系统审计中。sa 可以在*BSD和Linux中找到,它给用户在系统审计中更多的选项来收集信息。

  在反馈CPU整体信息方面,sar 反馈的与CPU相关的信息包括:

  (1)多少任务在运行

  (2)CPU使用的情况

  (3)CPU收到多少中断

  (4)发生多少上下文切换

  sar的语法如下:

  sar [-options] [interval [count]]

  其中,internal是两次采样的间隔时间;count是指采样的次数;与CPU相关的options有:

  参数的含义如下:

  参数 解释

  -c 表示输出采用的时间

  -e hh:mm:ss 表示只显示CPU的信息

  -i {irq |SUM|ALL|XALL} 相邻的两次采样的间隔时间

  -P {cpu|ALL}

  -q 显示在采样的时刻,可运行队列的任务的个数,以及系统平均负载

  -u CPU 使用的情况,报告了cpu的用户态,系统态,等待I/O和空闲时间上的百分比。

  -w:每秒上下文交换率

  -o:filename 将结果放在文件里

  -f:filename 表示从file文件中取出数据,如果没有指定-f file,则从标准数据文件7、sar

  sar是System Activity Reporter(系统活跃情况报告)的缩写。顾名思义,sar工具将对系统当前的状态进行采样,然后通过计算数据和比例来表达系统的当前运行状态。它的特点是可以连续对系统采样,获得大量的采样数据;采样数据和分析的结果都可以存入文件,所需的负载很小。这些是检查历史数据和一些近来的系统事件。sar用于检查的性能数据类似于vmstat, mpstat和 iostat的显示。 sar的数据是一段时间保存的内容,因此可以察看过去的信息。 lastcomm可以现在系统最近被执行的命令。这些可以用在系统审计中。sa 可以在*BSD和Linux中找到,它给用户在系统审计中更多的选项来收集信息。

  在反馈CPU整体信息方面,sar 反馈的与CPU相关的信息包括:

  (1)多少任务在运行

  (2)CPU使用的情况

  (3)CPU收到多少中断

  (4)发生多少上下文切换

  sar的语法如下:

  sar [-options] [interval [count]]

  其中,internal是两次采样的间隔时间;count是指采样的次数;与CPU相关的options有:

  参数的含义如下:

  参数 解释

  -c 表示输出采用的时间

  -e hh:mm:ss 表示只显示CPU的信息

  -i {irq |SUM|ALL|XALL} 相邻的两次采样的间隔时间

  -P {cpu|ALL}

  -q 显示在采样的时刻,可运行队列的任务的个数,以及系统平均负载

  -u CPU 使用的情况,报告了cpu的用户态,系统态,等待I/O和空闲时间上的百分比。

  -w:每秒上下文交换率

  -o:filename 将结果放在文件里

  -f:filename 表示从file文件中取出数据,如果没有指定-f file,则从标准数据文件7、sar

  sar是System Activity Reporter(系统活跃情况报告)的缩写。顾名思义,sar工具将对系统当前的状态进行采样,然后通过计算数据和比例来表达系统的当前运行状态。它的特点是可以连续对系统采样,获得大量的采样数据;采样数据和分析的结果都可以存入文件,所需的负载很小。这些是检查历史数据和一些近来的系统事件。sar用于检查的性能数据类似于vmstat, mpstat和 iostat的显示。 sar的数据是一段时间保存的内容,因此可以察看过去的信息。 lastcomm可以现在系统最近被执行的命令。这些可以用在系统审计中。sa 可以在*BSD和Linux中找到,它给用户在系统审计中更多的选项来收集信息。

  在反馈CPU整体信息方面,sar 反馈的与CPU相关的信息包括:

  (1)多少任务在运行

  (2)CPU使用的情况

  (3)CPU收到多少中断

  (4)发生多少上下文切换

  sar的语法如下:

  sar [-options] [interval [count]]

  其中,internal是两次采样的间隔时间;count是指采样的次数;与CPU相关的options有:

  参数的含义如下:

  参数 解释

  -c 表示输出采用的时间

  -e hh:mm:ss 表示只显示CPU的信息

  -i {irq |SUM|ALL|XALL} 相邻的两次采样的间隔时间

  -P {cpu|ALL}

  -q 显示在采样的时刻,可运行队列的任务的个数,以及系统平均负载

  -u CPU 使用的情况,报告了cpu的用户态,系统态,等待I/O和空闲时间上的百分比。

  -w:每秒上下文交换率

  -o:filename 将结果放在文件里

  -f:filename 表示从file文件中取出数据,如果没有指定-f file,则从标准数据文件7、sar

  sar是System Activity Reporter(系统活跃情况报告)的缩写。顾名思义,sar工具将对系统当前的状态进行采样,然后通过计算数据和比例来表达系统的当前运行状态。它的特点是可以连续对系统采样,获得大量的采样数据;采样数据和分析的结果都可以存入文件,所需的负载很小。这些是检查历史数据和一些近来的系统事件。sar用于检查的性能数据类似于vmstat, mpstat和 iostat的显示。 sar的数据是一段时间保存的内容,因此可以察看过去的信息。 lastcomm可以现在系统最近被执行的命令。这些可以用在系统审计中。sa 可以在*BSD和Linux中找到,它给用户在系统审计中更多的选项来收集信息。

  在反馈CPU整体信息方面,sar 反馈的与CPU相关的信息包括:

  (1)多少任务在运行

  (2)CPU使用的情况

  (3)CPU收到多少中断

  (4)发生多少上下文切换

  sar的语法如下:

  sar [-options] [interval [count]]

  其中,internal是两次采样的间隔时间;count是指采样的次数;与CPU相关的options有:

  参数的含义如下:

  参数 解释

  -c 表示输出采用的时间

  -e hh:mm:ss 表示只显示CPU的信息

  -i {irq |SUM|ALL|XALL} 相邻的两次采样的间隔时间

  -P {cpu|ALL}

  -q 显示在采样的时刻,可运行队列的任务的个数,以及系统平均负载

  -u CPU 使用的情况,报告了cpu的用户态,系统态,等待I/O和空闲时间上的百分比。

  -w:每秒上下文交换率

  -o:filename 将结果放在文件里

  -f:filename 表示从file文件中取出数据,如果没有指定-f file,则从标准数据文件范例1:查看 键入top命令查看系统状况
hhl:/var/log/sa/> top -d 15

top - 17:01:54 up  1:34,  3 users,  load average: 0.00, 0.00, 0.00
Tasks:  83 total,   1 running,  82 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.3%us,  1.2%sy,  0.0%ni, 97.6%id,  0.6%wa,  0.1%hi,  0.1%si,  0.1%st
Mem:    748720k total,   333812k used,   414908k free,    70904k buffers
Swap:  1638392k total,        0k used,  1638392k free,   179624k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                           
3298 hhl       15   0  2172  920  728 R  1.9  0.1   0:00.05 top                               
    1 root      15   0  2044  624  536 S  0.0  0.1   0:07.76 init                              
    2 root      RT   0     0    0    0 S  0.0  0.0   0:00.00 migration/0                       
    3 root      34  19     0    0    0 S  0.0  0.0   0:00.00 ksoftirqd/0                       
    4 root      RT   0     0    0    0 S  0.0  0.0   0:00.01 watchdog/0                        
    5 root      10  -5     0    0    0 S  0.0  0.0   0:00.06 events/0                          
    6 root      10  -5     0    0    0 S  0.0  0.0   0:00.01 khelper                           
    7 root      10  -5     0    0    0 S  0.0  0.0   0:00.01 kthread                           
    9 root      10  -5     0    0    0 S  0.0  0.0   0:00.00 xenwatch                          
   10 root      10  -5     0    0    0 S  0.0  0.0   0:00.00 xenbus                            
   12 root      10  -5     0    0    0 S  0.0  0.0   0:00.09 kblockd/0                         
   13 root      20  -5     0    0    0 S  0.0  0.0   0:00.00 kacpid                            
   74 root      20  -5     0    0    0 S  0.0  0.0   0:00.00 cqueue/0                          
   78 root      10  -5     0    0    0 S  0.0  0.0   0:00.00 khubd                             
   80 root      10  -5     0    0    0 S  0.0  0.0   0:00.00 kseriod                           
  135 root      25   0     0    0    0 S  0.0  0.0   0:00.00 pdflush


第一行的项目依次为当前时间、系统启动时间、当前系统登录用户数目、平均负载。

  第二行为进程情况,依次为进程总数、休眠进程数、运行进程数、僵死进程数、终止进程数。

  第三行为CPU状态,依次为用户占用、系统占用、优先任务占用、闲置任务占用。

  第四行为内存状态,依次为平均可用内存、已用内存、空闲内存、共享内存、缓存使用内存。

  第五行为交换状态,依次为平均可用交换容量、已用容量、闲置容量、交换高速缓存容量。

  然后下面就是和ps相仿的各进程情况列表了。

  总的来说,top命令的功能强于ps,但需要长久占用前台,所以用户应该根据自己的情况来使用这个命令。
 
9、oprofile

  Oprofile这个性能监视工具是利用处理器上所包含的专用的性能监视硬件(若没有性能监视硬件则使用一个基于计时器的代用品)来收集与性能相关的数据样品(samples)。它获得关于内核以及系统上的可执行文件的信息,例如内存是何时被引用的;L2缓存请求的数量;收到的硬件中断数量等。

  下表提供了对 oprofile 软件包中包括的工具的总览。

  命令 描述

  opcontrol 配置要收集的数据

  op_help 显示系统处理器的可用事件以及每个事件的简单描述

  opreport 获得有用的profile数据

  Opannotate 如果应用程序使用调试符号编译了,创建带注解

  oprofiled 作为守护进程来运行,定期把样品数据写入磁盘

  Oparchive 收集可执行文件信息和调试信息,将采样文件归档

  op_import 把样品数据库文件从异类二进制格式转换成系统的本地原始格式。只有在分析不同体系的样品数据库时才使用该选项。

  (1)opcontrol

  在运行 OProfile 之前,必须用opcontrol配置监视环境。在 opcontrol 命令被执行时,设置选项就会被保存到 /root/.oprofile/daemonrc 文件中。

命令格式

  opcontrol [--vmlinux] [--start] [--stop] [--dump] [--shutdown] [--save=filename]

  参数解释

  参数 描述

  vmlinux 用来配置是否监视内核。要监视内核,以根用户身份执行以下命令:

  >opcontrol --vmlinux=/usr/src/linux-2.6.13/vmlinux

  要配置 OProfile 不监视内核,以根用户身份执行以下命令:

  >opcontrol --no-vmlinux

  这个命令还会载入 oprofile 内核模块(如果还没有被载入),并创建 /dev/oprofile/ 目录(如果不存在)。

  start 开始监视系统

  要使用 OProfile 来开始监视系统,以根用户身份执行以下命令:

  CODE:

>opcontrol --start
Reading module info.
Using log file /var/lib/oprofile/oprofiled.log
Daemon started.
Profiler running.

  /root/.oprofile/daemonrc 中的设置被使用。OProfile 守护进程 oprofiled 被启动;它定期把样品数据写入 /var/lib/oprofile/samples/ 目录。该守护进程的日志位于 /var/lib/oprofile/oprofiled.log。如果 OProfile 使用不同的配置选项被重新启动,以前会话中的样品文件就会被自动备份到 /var/lib/oprofile/samples/session-N 目录中,这里的 N 是前一次备份会话数量再加1。

  stop 停止监视

  Shutdown 要停止建档器,以根用户身份执行以下命令:

  >opcontrol –shutdown

  Save save 保存数据

  要保存当前的抽样文件集合,执行以下命令,把 替换成当前会话中的独特描述性名称。 opcontrol --save= 目录 /var/lib/oprofile/samples/name/ 被创建,当前的抽样文件被复制到其中。

  Dump dump OProfile 守护进程 oprofiled 定期收集样品,并把它们写入 /var/lib/oprofile/samples/ 目录。在读取数据之前,请以根用户身份执行以下命令来确定所有数据都被写入这个目录中了。
 
 
 
 
 
 
 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值