区域1:反映CPU使用率和工作状况。
Kernel:
说明:操作系统的内核占用的CPU时间比率。
操作系统作为基础软件,为应用程序支持和服务的同时,本身的运行也需要一定的CPU和内存资源(顺便提到内存资源,后面不再阐述这个内容了),特别是内存资源,系统负载越重,相应的内核占用的CPU和内存资源也会越多。一般来说,内核占用的CPU时间不会太多的。一般小于应用的CPU使用率。
User:
说明:用户进程占用的CPU时间比率。
这个为CPU使用率的关键数值。该使用率反映了用户在操作系统基础上运行的各种软件占用的CPU时间比率的总和。一般来说,如果User+Kernel连续大于70%,即可以认为系统可能存在CPU上的严重性能问题。
Wait
说明:CPU处于等待状态占CPU时间的比率。
CPU的等待一般都为等待IO的响应,众所周知,目前计算机的主要瓶颈都在IO。应用程序执行的时候,需要读写磁盘等外部存储的数据,进程就会发起IO请求后等待IO完成。这个等待的过程占用CPU时间就是wait。当这个值很高的时候,就说明IO来不及响应很多的IO请求,这个时候,就只能从IO层面想办法优化了。
Idle:
说明:CPU空闲时间比率,这个就不用说了吧。就是CPU多少时间比率在闲着。
CPU占用率出问题的主要可能原因:数据库服务器执行某一个SQL或者存储过程(存储过程就是封装起来的sql程序包而已)需要大量的运算(一般为软件设计不合理)。或者应用程序中存在异常的地方,比如死循环,或者其他写程序时的逻辑错误导致。一般程序出错会导致一个CPU被全部占用,比如上述的20%占用的原因就是一个交易程序长期占用一个CPU全部时间片(系统共计5个CPU)。
区域2:反映网络使用率的状况。
Netwok;列出了网卡接口,KBPS即每秒钟多少KB(千字节) I-Pack每秒钟输入的数据包个数, O-Pack 每秒钟输出的数据包个数 KB-In每秒钟输入的字节数 KB-Out每秒钟输出的字节数。
当我们发现网络拥堵时(出现网卡传输失效的报错,即网卡发送数据包失败。或者网络响应明显变慢的时候,如果CPU没有问题,那么请检查网络流量)发现某一个网卡的KBPS持续大于四位数,甚至五位数时(这个值要是网卡千兆还是百兆而定)。就要看看这个网卡是什么网卡,在处理什么业务了。在命令行执行netstat –in 查看对应en*接口的ip地址,通过ip地址看看是带官网卡还是生产服务网卡流量高。然后通过netstat –v en* 看看网卡的详细工作状态,出现了多少错包,冲突包,crc校验错或者网络重置过等信息。上述信息请详细看netstat –v en*的输出.如果出现大量crc,错包的话,可能网线有问题或者接触不良。
如果上述均正常,而网络反应慢,则有可能是交换机拥堵。
网络出现问题的可能原因:通过百兆的带管网加载大量数据(以前出现过),大量队列的长时间的ftp传输,或者网线,交换机问题等。
区域3:反映磁盘使用率的状况。
Disk Busy%磁盘繁忙的百分比,即磁盘能满足的最大IOPS(每秒IO操作数)和当前IO数量的比率。其他的参数不再解释。望文生义即可。
一般主要看磁盘的Busy%,当磁盘的Busy%持续大于85%时,即认为磁盘相当繁忙,已经可能要出问题了。当然,自己知道已经确定要产生大量IO操作的内容则不必在意,等其完成即可。
出现问题的原因:应用服务器上面写日志进程或者查询日志的进程大量读写日志,导致磁盘繁忙率高,或者其他程序频繁读写磁盘导致。系统中hdisk0,hdisk1一般为系统盘,内置SCSI磁盘的相对IOPS是较低的。很容易满负荷运行。
区域4:反映进程信息的状况。
Name:进程的名称,即进程被执行时启动的二进制文件的名称。
PID,进程的ID,进程的ID在系统中唯一,是我们了解跟踪进程信息重要数值。
跟踪进程的CPU使用,磁盘IO读写,进程的内存和pagingspace占用等等均需要使用。
CPU%进程占用CPU时间的比率。
PgSp,进程占用的pagingspace的空间大小。
Owner进程的属主,即由哪个操作用户用户启动了这个进程。
在topas中,默认是列出占用cpu最高的前几个的进程信息供参考,如果前面第一区域的的CPU使用率持续高,就要看看这里是那个进程占用了大量的CPU资源,看看是哪个用户的进程,如果自己执行的,则杀掉或者找项目组解决即可。
区域5:反映内存页面和换页空间信息的状况。
换页空间即磁盘上的空间,在AIX操作系统中用来做内存空间使用。具体的理论就不再阐述了,详细信息请参阅操作系统内容。磁盘空间的速度当然相比内存,慢了不止10倍。所以,只是内存页面的一个暂时存放地,存放的还是那些长期不怎么用到的内存页面而已。如果paging大量出现,这时候就有麻烦了,说明:内存不够用了!
该区域主要关注PageIn,PageOut如果这两个数值均大于三位数,并且长期大于这个数值,在技术上叫做内存颠簸,即不停的把内存页面换到磁盘空间上,又从磁盘空间把内存页面读进来,系统的内存使用效率变的极差,系统响应性能也变慢了。
这个信息也可以用vmstat来看,pi和po列即与这里相对应。当然,如果只是有页面出,或者只有页面入,或者短时间的一些页面换入换出,则没有什么问题,关注一下即可。
区域6:反映内存使用的信息。
Real,MB操作系统实际拥有的内存的总量,单位是MB。
%Comp,计算型内存占用比率,%Noncomp非计算型内存占用的比率。
%Client也为非计算型内存,Noncomp包涵Client型内存,jfs文件系统使用的内存为noncomp,为了区分,jfs2和nfs使用的内存为Client。
计算型内存就是进程实际使用的内存,例如我们写程序的时候malloc内存,或者在排序中使用了堆栈,进程中变量数值都需要在内存中保存,这部分内存为计算型内存(阐述不全面,仅供参考)。而操作系统在进行文件读写,需要的io缓冲区,或者我们在写程序的时候,打开文件,读写文件,均在文件缓冲区进行。(裸设备例外,CCCC的数据库采用RAC,数据的存储全部使用裸设备,在数据库服务器上,数据文件的缓冲在oracle的sga区的data buffer中(这个区域系统认为是计算型内存),是不会占用非计算内存的。)
导致内存出问题的可能原因很多。主要有:进程使用了更多的内存,例如,CCCC数据库服务器大量的oracle连接使用了很多内存,或者数据库中执行的某一个sql脚本或者存储过程的执行需要大量的内存来完成其操作(特例库中出现过这个情形,一个存储过程的执行导致操作系统内存被耗尽,pg也随之耗尽,操作系统自动执行PGSP_KILL,把该进程给干掉了,我也是第一次知道aix系统还有这个功能,呵呵)。第二个主要的问题就是内存泄漏,内存泄漏最简单的来说,就是申请了内存空间,使用后不再使用了,但是也没有释放。我们写程序的时候malloc,却没有free。这就导致了严重的问题,随着程序的执行,可用物理内存越来越少,最后就挂了,只好定期重启应用来解决。
操作系统的内存换页机制导致了程序中不用的内存页面最后都跑到pg上面去了,换页空间会持续增长的。因应用导致系统问题就是这么产生的。
区域7反映的是换页空间的使用率。
如果换页空间的使用率长期增长,就说明系统内存不足,已经开始使用磁盘空间来缓冲内存了,如果PG使用率持续增长,或者大于50%,需要警惕(到50%在监控平台已经是主要告警啦!),并马上提交系统管理员分析内存增长原因。如果该数值持续增长,系统一定会挂掉的!
other:
物理磁盘:
Disk:物理磁盘的名称;
Busy%:指明物理磁盘在活动状态的时间百分比;
KBPS:在监控期间每秒钟读写的字节数(以K为单位);
TPS:每秒钟物理磁盘的数据传输量。一次传输指的是一次I/O请求;
KB-Read:每秒钟从物理磁盘读出的K字节数;
KB-Write:每秒钟向物理磁盘写入的K字节数。
WLM(负载管理)类:
%CPU Utilization:CPU的平均利用率;
%Mem Utilization:内存的平均利用率;
%Blk I/O:块I/O的平均利用率;
进程:
NAME:可执行程序的名称;
Process ID:进程的ID号;
%CPU Utilization:进程的CPU平均使用率,这个值指的是进程在生命周期中的平均使用率;
Paging Space Used:分配给进程的分页空间大小;
Process Owner:拥有这个进程的用户名;
Workload Management(WLM)Class:进程属于哪个WLM class
http://blog.csdn.net/nowdoit/article/details/6447493
--
topas概述
topas 命令报告选定的本地系统活动的统计信息。该命令使用 curses 库以合适的格式来显示其输出,该格式适合于在一个 80x25 基于字符的显示器上或至少同样大小的图形显示器的窗口中进行查看。topas 命令需要在系统中安装 perfagent.tools 文件集。
如果 topas 命令调用时没有标志,则运行时正如用以下命令行来调用:
topas -d20 -i2 -n20 -p20 -w20 -c20
程序按由 monitoring_interval_in_seconds 参数指定的时间间隔从系统抽取统计信息。缺省输出如下所示,包含两个固定部分和一个可变部分。显示器左边的最上方两行显示了 topas 命令运行所在的系统的名称、上次查看的日期和时间以及监视时间间隔。
第二个固定部分占用了显示器的最右端的 25 个位置。它包含统计信息的 5 个子节,如下所示:
事件/队列 | 显示选定的系统全局事件的每秒频率、线程运行和等待队列的平均大小:
上下文切换
|
文件/TTY | 显示所选文件与 tty 统计信息的每秒频率。
读字符
|
页面调度 | 显示页面调度统计信息的每秒频率。
故障
|
内存 | 显示实际内存大小与内存使用的分布情况。
实内存,MB
|
调页空间 | 显示调页空间的大小和使用率
大小,MB
|
NFS | 显示每秒调用的 NFS 状态
|
CPU 使用率
此子节显示一个条形图表来表示累积的 CPU 使用率。如果有多个 CPU,按 c 键两次 就可显示 CPU 列表。仅按 c 键一次将会关闭此子节。以下字段通过两种格式显示:
用户百分比 :这显示以用户方式执行的程序所使用的 CPU 的百分比。(缺省按用户百分比排序) : 这个为CPU使用率的关键数值。该使用率反映了用户在操作系统基础上运行的各种软件占用的CPU时间比率的总和。一般来说,如果User+Kernel连续大于70%,即可以认为系统可能存在CPU上的严重性能问题。
内核百分比 :这显示以内核方式执行的程序所使用的 CPU 的百分比。操作系统作为基础软件,为应用程序支持和服务的同时,本身的运行也需要一定的CPU和内存。特别是内存资源,系统负载越重,相应的内核占用的CPU和内存资源也会越多。一般来说,内核占用的CPU时间不会太多的。一般小于应用的CPU使用率。
等待百分比 :这显示用于等待 IO 的时间的百分比。CPU的等待一般都为等待IO的响应,众所周知,目前计算机的主要瓶颈都在IO。应用程序执行的时候,需要读写磁盘等外部存储的数据,进程就会发起IO请 求后等待IO完成。这个等待的过程占用CPU时间就是wait。当这个值很高的时候,就说明IO来不及响应很多的IO请求,这个时候,就只能从IO层面想 办法优化了。
空闲百分比 :这表示 CPU 空闲时间的百分比。CPU占用率出问题的主要可能原因:数据库服务器执行某一个SQL或者存储过程需要大量的运算(一般为软件设计不合理)。或者应用程序中存在异常的地方,比如死循环,或者其他写程序时的逻辑错误导致。一般程序出错会导致一个CPU被全部占用,比如上述的20%占用的原因就是一个交易程序长期占用一个CPU全部时间片。
当此子节首先显示热 CPU 列表时,就按用户百分比字段来对列表排序。但是,可以按其它字段来对列表排序,只要将光标移到期望栏的顶部就可以了。
网络接口
此子节显示了热网络接口的列表。所显示接口的最大数目是正在受监视的热接口数目,如 -n 标志指定的那样。如果其它子节也正在被显示,则将显示接口的一个较小数目。按n 键可关闭此子节。再次按 n 键显示一行所有网络接口活动的报告摘要。两个报告都显示以下字段:
接口 :网络接口的名称。
千位/秒 :在监视时间间隔内每秒钟以 MB 为单位的总吞吐量。该字段是每秒接收到的千字节和发送的千字节的总和。
输入包 :在监视时间间隔内每秒钟接收到的数据包的数目。
输出包 :在监视时间间隔内每秒钟发送的数据包的数目。
输入千字 :在监视时间间隔内每秒钟接收到的千字节的数目。
输出千字节 :在监视时间间隔内每秒钟发送的千字节的数目。
当此子节首先显示热网络接口列表时,按 KBPS 字段对列表排序。但是,可以按其它字段对列表排序,只要将光标移到期望栏的顶部就可以了。排序仅对最多 16 个网络适配器有效。
当我们发现网络拥堵时(出现网卡传输失效的报错,即网卡发送数据包失败。或者网络响应明显变慢的时候,如果CPU没有问题,那么请检查网络流量)发现某一个网卡的KBPS持续大于四位数,甚至五位数时(这个值要是网卡千兆还是百兆而定)。就要看看这个网卡是什么网卡,在处理什么业务了。在命令行执行netstat –in 查看对应en*接口的ip地址,通过ip地址看看是带官网卡还是生产服务网卡流量高。然后通过netstat –v en* 看看网卡的详细工作状态,出现了多少错包,冲突包,crc校验错或者网络重置过等信息。上述信息请详细看netstat –v en*的输出.如果出现大量crc,错包的话,可能网线有问题或者接触不良。
如果上述均正常,而网络反应慢,则有可能是交换机拥堵。
网络出现问题的可能原因:通过百兆的带管网加载大量数据(以前出现过),大量队列的长时间的ftp传输,或者网线,交换机问题等。
磁盘
物理磁盘 此子节显示热物理磁盘列表。所显示物理磁盘的最大数目是正受监视的热物理磁盘数目,正如 -d 标志指定的那样。如果其它子节也正在被显示,则将显示物理磁盘的一个较小数目。按 d 键可关闭此子节。再次按 d 键显示一行所有物理磁盘活动的报告摘要。两个报告都显示以下字段:
物理磁盘的名称。
忙碌百分比 :表示物理磁盘活动时间的百分比(驱动器带宽使用率)。 Disk Busy%磁盘繁忙的百分比,即磁盘能满足的最大IOPS(每秒IO操作数)和当前IO数量的比率。 一般主要看磁盘的Busy%,当磁盘的Busy%持续大于85%时,即认为磁盘相当繁忙,已经可能要出问题了。当然,自己知道已经确定要产生大量IO操作的内容则不必在意,等其完成即可。 出现问题的原因:应用服务器上面写日志进程或者查询日志的进程大量读写日志,导致磁盘繁忙率高,或者其他程序频繁读写磁盘导致。系统中hdisk0,hdisk1一般为系统盘,内置SCSI磁盘的相对IOPS是较低的。很容易满负荷运行。
千位/秒 :在监视时间间隔内每秒钟读和写的千字节的数目。此字段是 KB-Read 和 KB-Writ 的总和。
TPS :每秒钟向物理磁盘发出的传输数目。传输是对物理磁盘的 I/O 请求。多个逻辑请求可组合成对磁盘的单个 I/O 请求。传输大小不确定。
读取千字节 :每秒钟从物理磁盘读取的千字节的数目。
写入千字节 :每秒钟写到物理磁盘的千字节的数目。
当此子节首先显示热物理磁盘列表时,按KBPS 字段对列表排序。但是,可以按其它字段对列表排序,只要将光标移到期望栏的顶部就可以了。排序仅对最多 128 个物理磁盘有效。
进程
此子节显示热进程列表。所显示进程的最大数目是正在受监视的热过程数目,如 -p 标志指定的那样。如果其它子节也正在被显示,则将显示进程的一个较小数目。按 p 键可关闭此子节。按监视时间间隔内进程的 CPU 使用率来对进程排序。对于每一进程会显示以下字段:
名称 :在进程中执行的可执行程序的名称。名称已被除去任何路径名和参数信息并被截断到 9 个字符的长度。
进程标识 :进程的进程标识。
CPU 使用率百分比 :在监视时间间隔内进程的平均 CPU 使用率。第一次显示进程时,此值表示整个进程生命期上的平均 CPU 使用率。
已使用调页空间 :分配给此进程的调页空间的大小。这可被认为是进程覆盖区的一种表达,但并不包括用来保持可执行程序和它依赖的任何共享库的内存。
进程所有者 (如果 WLM 部分被关闭) :拥有此进程的用户的用户名。
工作负载管理(WLM)类 (如果 WLM 部分被打开) :进程所属的 WLM 类。
在topas中,默认是列出占用cpu最高的前几个的进程信息供参考,如果前面第一区域的的CPU使用率持续高,就要看看这里是那个进程占用了大量的CPU资源,看看是哪个用户的进程,如果自己执行的,则杀掉或者找项目组解决即可。
参数列表
子命令
当 topas 运行时,它接受单字符的子命令。每次监视时间间隔过去时,程序会对以下子命令之一进行检查并对所请求的操作作出响应。
a | a 键可显示所有正在受监视的变量子节(CPU、网络、磁盘、WLM、过程)。按 a 键总使 topas命令返回到初始主显示屏幕。 |
c | c 键可使 CPU 子节在累积报告、关闭和最忙 CPU 列表这三者之间进行切换。所显示的最忙 CPU 数目将取决于屏幕上的可用空间。 |
d | d 键可使磁盘子节在最忙磁盘列表、关闭和系统全部磁盘活动的报告这三者之间进行切换。所显示的最忙磁盘数目将取决于屏幕上的可用空间。 |
h | 显示帮助屏幕。 |
n | n 键可使网络接口子节在最忙接口列表、关闭和系统全部网络活动的报告这三者之间进行切换。所显示的最忙接口数目将取决于屏幕上的可用空间。 |
w | w 键可在打开与关闭工作负载管理(WLM)类子节之间进行切换。所显示的最忙 WLM 类数目取决于屏幕上的可用空间。 |
p | p 键可在打开与关闭热进程子节之间进行切换。所显示的最忙进程数目取决于屏幕上的可用空间。 |
P | 大写 P 键用全屏幕进程显示来替换缺省显示。有关运行在系统上的进程,此显示提供了比主显示的进程部分更详细的的信息。再次按 P 键时,就会切换回缺省主显示。 |
W | 大写 W 键用全屏幕 WLM 类显示来替换缺省显示。此显示提供了有关 WLM 类和指定给类的进程的更详细信息。再次按 W 键时,就会切换回缺省主显示。 |
f | 将光标移动到一个 WLM 类上,并按 f 键就可在 WLM 屏幕底部显示该类中顶部进程的列表。该键功能只有 topas 在全屏幕 WLM 显示(通过使用 W 键或 -W 标志)时才有效。 |
q | 退出程序。 |
r | 刷新显示。 |
箭头键与跳格键 | 主显示中的各个子节,诸如 CPU、网络、磁盘、WLM 类、全屏幕 WLM 与进程显示的子节可按不同标准进行排序。将光标移动到一栏上,然后会按该栏进行排序。各项总是从最高值到最低值排序。使用跳格 键或箭头键来移动光标。排序只对 128 个磁盘和 16 个网络适配器有效。 |
常用用法
1、要每 5 秒显示最多 20 个“热”磁盘而省略网络接口、WLM 类和进程信息,请输入:
#topas -i5 -n0 -p0 -w0
2、要显示 5 个最活跃的进程和最多 20 个最活跃的 WLM 类(省略 -w 标志时此为缺省值),而不显示网络或磁盘信息,请输入:
#topas -p5 -n0 -d0
3、要使用缺省选项运行程序,请输入:
#topas
4、要直接进入进程显示,请输入:
#topas -P
5、要直接进入 WLM 类显示,请输入:
#topas -W
参考至:http://www.kuqin.com/aixcmds/aixcmds5/topas.htm#a26866631
http://www.iteye.com/topic/638455
---
事件/队列 | 显示选定的系统全局事件的每秒频率、线程运行和等待队列的平均大小:
上下文切换
|
文件/TTY | 显示所选文件与 tty 统计信息的每秒频率。
读字符
|
页面调度 | 显示页面调度统计信息的每秒频率。
故障
|
内存 | 显示实际内存大小与内存使用的分布情况。
实内存,MB
|
调页空间 | 显示调页空间的大小和使用率
大小,MB
|
NFS | 显示每秒调用的 NFS 状态
|
CPU 使用率
此子节显示一个条形图表来表示累积的 CPU 使用率。如果有多个 CPU,按 c 键两次 就可显示 CPU 列表。仅按 c 键一次将会关闭此子节。以下字段通过两种格式显示:
用户百分比 :这显示以用户方式执行的程序所使用的 CPU 的百分比。(缺省按用户百分比排序) : 这个为CPU使用率的关键数值。该使用率反映了用户在操作系统基础上运行的各种软件占用的CPU时间比率的总和。一般来说,如果User+Kernel连续大于70%,即可以认为系统可能存在CPU上的严重性能问题。
内核百分比 :这显示以内核方式执行的程序所使用的 CPU 的百分比。操作系统作为基础软件,为应用程序支持和服务的同时,本身的运行也需要一定的CPU和内存。特别是内存资源,系统负载越重,相应的内核占用的CPU和内存资源也会越多。一般来说,内核占用的CPU时间不会太多的。一般小于应用的CPU使用率。
等待百分比 :这显示用于等待 IO 的时间的百分比。CPU的等待一般都为等待IO的响应,众所周知,目前计算机的主要瓶颈都在IO。应用程序执行的时候,需要读写磁盘等外部存储的数据,进程就会发起IO请 求后等待IO完成。这个等待的过程占用CPU时间就是wait。当这个值很高的时候,就说明IO来不及响应很多的IO请求,这个时候,就只能从IO层面想 办法优化了。
空闲百分比 :这表示 CPU 空闲时间的百分比。CPU占用率出问题的主要可能原因:数据库服务器执行某一个SQL或者存储过程需要大量的运算(一般为软件设计不合理)。或者应用程序中存在异常的地方,比如死循环,或者其他写程序时的逻辑错误导致。一般程序出错会导致一个CPU被全部占用,比如上述的20%占用的原因就是一个交易程序长期占用一个CPU全部时间片。
当此子节首先显示热 CPU 列表时,就按用户百分比字段来对列表排序。但是,可以按其它字段来对列表排序,只要将光标移到期望栏的顶部就可以了。
网络接口
此子节显示了热网络接口的列表。所显示接口的最大数目是正在受监视的热接口数目,如 -n 标志指定的那样。如果其它子节也正在被显示,则将显示接口的一个较小数目。按n 键可关闭此子节。再次按 n 键显示一行所有网络接口活动的报告摘要。两个报告都显示以下字段:
接口 :网络接口的名称。
千位/秒 :在监视时间间隔内每秒钟以 MB 为单位的总吞吐量。该字段是每秒接收到的千字节和发送的千字节的总和。
输入包 :在监视时间间隔内每秒钟接收到的数据包的数目。
输出包 :在监视时间间隔内每秒钟发送的数据包的数目。
输入千字 :在监视时间间隔内每秒钟接收到的千字节的数目。
输出千字节 :在监视时间间隔内每秒钟发送的千字节的数目。
当此子节首先显示热网络接口列表时,按 KBPS 字段对列表排序。但是,可以按其它字段对列表排序,只要将光标移到期望栏的顶部就可以了。排序仅对最多 16 个网络适配器有效。
当我们发现网络拥堵时(出现网卡传输失效的报错,即网卡发送数据包失败。或者网络响应明显变慢的时候,如果CPU没有问题,那么请检查网络流量)发现某一个网卡的KBPS持续大于四位数,甚至五位数时(这个值要是网卡千兆还是百兆而定)。就要看看这个网卡是什么网卡,在处理什么业务了。在命令行执行netstat –in 查看对应en*接口的ip地址,通过ip地址看看是带官网卡还是生产服务网卡流量高。然后通过netstat –v en* 看看网卡的详细工作状态,出现了多少错包,冲突包,crc校验错或者网络重置过等信息。上述信息请详细看netstat –v en*的输出.如果出现大量crc,错包的话,可能网线有问题或者接触不良。
如果上述均正常,而网络反应慢,则有可能是交换机拥堵。
网络出现问题的可能原因:通过百兆的带管网加载大量数据(以前出现过),大量队列的长时间的ftp传输,或者网线,交换机问题等。
磁盘
物理磁盘 此子节显示热物理磁盘列表。所显示物理磁盘的最大数目是正受监视的热物理磁盘数目,正如 -d 标志指定的那样。如果其它子节也正在被显示,则将显示物理磁盘的一个较小数目。按 d 键可关闭此子节。再次按 d 键显示一行所有物理磁盘活动的报告摘要。两个报告都显示以下字段:
物理磁盘的名称。
忙碌百分比 :表示物理磁盘活动时间的百分比(驱动器带宽使用率)。 Disk Busy%磁盘繁忙的百分比,即磁盘能满足的最大IOPS(每秒IO操作数)和当前IO数量的比率。 一般主要看磁盘的Busy%,当磁盘的Busy%持续大于85%时,即认为磁盘相当繁忙,已经可能要出问题了。当然,自己知道已经确定要产生大量IO操作的内容则不必在意,等其完成即可。 出现问题的原因:应用服务器上面写日志进程或者查询日志的进程大量读写日志,导致磁盘繁忙率高,或者其他程序频繁读写磁盘导致。系统中hdisk0,hdisk1一般为系统盘,内置SCSI磁盘的相对IOPS是较低的。很容易满负荷运行。
千位/秒 :在监视时间间隔内每秒钟读和写的千字节的数目。此字段是 KB-Read 和 KB-Writ 的总和。
TPS :每秒钟向物理磁盘发出的传输数目。传输是对物理磁盘的 I/O 请求。多个逻辑请求可组合成对磁盘的单个 I/O 请求。传输大小不确定。
读取千字节 :每秒钟从物理磁盘读取的千字节的数目。
写入千字节 :每秒钟写到物理磁盘的千字节的数目。
当此子节首先显示热物理磁盘列表时,按KBPS 字段对列表排序。但是,可以按其它字段对列表排序,只要将光标移到期望栏的顶部就可以了。排序仅对最多 128 个物理磁盘有效。
进程
此子节显示热进程列表。所显示进程的最大数目是正在受监视的热过程数目,如 -p 标志指定的那样。如果其它子节也正在被显示,则将显示进程的一个较小数目。按 p 键可关闭此子节。按监视时间间隔内进程的 CPU 使用率来对进程排序。对于每一进程会显示以下字段:
名称 :在进程中执行的可执行程序的名称。名称已被除去任何路径名和参数信息并被截断到 9 个字符的长度。
进程标识 :进程的进程标识。
CPU 使用率百分比 :在监视时间间隔内进程的平均 CPU 使用率。第一次显示进程时,此值表示整个进程生命期上的平均 CPU 使用率。
已使用调页空间 :分配给此进程的调页空间的大小。这可被认为是进程覆盖区的一种表达,但并不包括用来保持可执行程序和它依赖的任何共享库的内存。
进程所有者 (如果 WLM 部分被关闭) :拥有此进程的用户的用户名。
工作负载管理(WLM)类 (如果 WLM 部分被打开) :进程所属的 WLM 类。
在topas中,默认是列出占用cpu最高的前几个的进程信息供参考,如果前面第一区域的的CPU使用率持续高,就要看看这里是那个进程占用了大量的CPU资源,看看是哪个用户的进程,如果自己执行的,则杀掉或者找项目组解决即可。
参数列表
子命令
当 topas 运行时,它接受单字符的子命令。每次监视时间间隔过去时,程序会对以下子命令之一进行检查并对所请求的操作作出响应。
a | a 键可显示所有正在受监视的变量子节(CPU、网络、磁盘、WLM、过程)。按 a 键总使 topas命令返回到初始主显示屏幕。 |
c | c 键可使 CPU 子节在累积报告、关闭和最忙 CPU 列表这三者之间进行切换。所显示的最忙 CPU 数目将取决于屏幕上的可用空间。 |
d | d 键可使磁盘子节在最忙磁盘列表、关闭和系统全部磁盘活动的报告这三者之间进行切换。所显示的最忙磁盘数目将取决于屏幕上的可用空间。 |
h | 显示帮助屏幕。 |
n | n 键可使网络接口子节在最忙接口列表、关闭和系统全部网络活动的报告这三者之间进行切换。所显示的最忙接口数目将取决于屏幕上的可用空间。 |
w | w 键可在打开与关闭工作负载管理(WLM)类子节之间进行切换。所显示的最忙 WLM 类数目取决于屏幕上的可用空间。 |
p | p 键可在打开与关闭热进程子节之间进行切换。所显示的最忙进程数目取决于屏幕上的可用空间。 |
P | 大写 P 键用全屏幕进程显示来替换缺省显示。有关运行在系统上的进程,此显示提供了比主显示的进程部分更详细的的信息。再次按 P 键时,就会切换回缺省主显示。 |
W | 大写 W 键用全屏幕 WLM 类显示来替换缺省显示。此显示提供了有关 WLM 类和指定给类的进程的更详细信息。再次按 W 键时,就会切换回缺省主显示。 |
f | 将光标移动到一个 WLM 类上,并按 f 键就可在 WLM 屏幕底部显示该类中顶部进程的列表。该键功能只有 topas 在全屏幕 WLM 显示(通过使用 W 键或 -W 标志)时才有效。 |
q | 退出程序。 |
r | 刷新显示。 |
箭头键与跳格键 | 主显示中的各个子节,诸如 CPU、网络、磁盘、WLM 类、全屏幕 WLM 与进程显示的子节可按不同标准进行排序。将光标移动到一栏上,然后会按该栏进行排序。各项总是从最高值到最低值排序。使用跳格 键或箭头键来移动光标。排序只对 128 个磁盘和 16 个网络适配器有效。 |
常用用法
1、要每 5 秒显示最多 20 个“热”磁盘而省略网络接口、WLM 类和进程信息,请输入:
#topas -i5 -n0 -p0 -w0
2、要显示 5 个最活跃的进程和最多 20 个最活跃的 WLM 类(省略 -w 标志时此为缺省值),而不显示网络或磁盘信息,请输入:
#topas -p5 -n0 -d0
3、要使用缺省选项运行程序,请输入:
#topas
4、要直接进入进程显示,请输入:
#topas -P
5、要直接进入 WLM 类显示,请输入:
#topas -W
参考至:http://www.kuqin.com/aixcmds/aixcmds5/topas.htm#a26866631
http://www.iteye.com/topic/638455
http://czmmiao.iteye.com/blog/1155039
1、CPU:反应CPU性能区域。
User%:用户进程占用CPU的时间比率。该数值反应了用户所运行的各种软件所占用的CPU时间比率总和。
Kern%:操作系统内核所占用的CPU的时间比率。操作系统作为基础软件,为应用程序支持和服务的同时,本身的运行也需要一定的CPU和内存资源。不过,通常情况下,操作系统所占用的CPU时间比率不会很多。如果User%+Kern%的值长时间大于70%,则有可能出现系统资源不足,需要引起我们注意。
Wait%:CPU处于等待状态占CPU时间的比率。CPU的等待一般都为等待IO的响应,如果这个值长时间很高时,就说明IO来不及响应很多的IO请求,这个时候,就只能从IO层面想办法优化了。
Idle%:CPU空闲时间比率。
2、Network:反映网络使用情况区域:
KBPS:每秒钟多少KB数据传输,是每秒钟接收和发送的总和。
I-Pack:每秒钟输入的数据包个数。
O-Pack: 每秒钟输出的数据包。
KB-In:每秒钟输入的字节数。
KB-Out:每秒钟输出的字节数。
3、Disk:反映磁盘使用率的状况的区域:
Disk:物理磁盘的名称;
Busy%:指明物理磁盘在活动状态的时间百分比;当磁盘的Busy%持续大于85%时,即认为磁盘相当繁忙,这就值得关注。
KBPS:在监控期间每秒钟读写的字节数(以K为单位);
TPS:每秒钟物理磁盘的数据传输量。一次传输指的是一次I/O请求;
KB-Read:每秒钟从物理磁盘读出的K字节数;
KB-Write:每秒钟向物理磁盘写入的K字节数。
4、FileSystem:反映文件系统使用情况区域:
KBPS:在监控期间每秒钟读写的字节数(以K为单位);
TPS:每秒钟文件系统的数据传输量。
KB-Read:每秒钟从文件系统读出的K字节数;
KB-Write:每秒钟向文件系统写入的K字节数。
5、反映进程信息的情况区域:
Name:进程的名称,即进程被执行时启动的二进制文件的名称。
PID:进程的ID,进程的ID在系统中唯一,是我们了解跟踪进程信息重要数值。
跟踪进程的CPU使用,磁盘IO读写,进程的内存和pagingspace占用等等均需要使用。
CPU%:进程占用CPU时间的比率。
PgSp:进程占用的pagingspace的空间大小。以MB为单位。
Owner:进程的属主,即由哪个操作用户用户启动了这个进程。
说明:本区域默认列出占用CPU最高的前几个进程信息。
6、EVENTS/QUEUES反映系统事件/ 队列信息区域:
Cswitch:在监控期间每秒钟内容转换的次数;
Syscall:在监控期间每秒钟运行系统呼叫的总次数;
Reads:在监控期间每秒钟运行读系统呼叫的次数;
Writes:在监控期间每秒钟运行写系统呼叫的次数;
Forks:在监控期间每秒钟运行派生系统呼叫的次数;
Execs:在监控期间每秒钟运行执行系统呼叫的次数;
Runqueue:等待处理器空闲以便运行的线程平均数;
Waitqueue:等待分页完成的线程平均数;
Readch:在监控期间通过读系统呼叫每秒钟读出的字节数;
Writech:在监控期间通过写系统呼叫每秒钟写入的字节数;
Rawin:在监控期间通过TTYs每秒钟读入的裸字节数;
Ttyout:在监控期间每秒钟写入TTYs的字节数;
Igets:在监控期间每秒钟到节点查找例行程序的呼叫数;
Namei:在监控期间每秒钟路径查找例行程序的呼叫数;
Dirblk:在监控期间通过目录搜索例行程序每秒钟扫描到的目录块数;
7、PAGING反映换页空间信息区域
Faults:在监控期间每秒钟发生的页面错误总数;
Steals:在监控期间被虚拟内存管理器(VMM)每秒钟偷走的物理内存4k的帧;
PgspIn:在监控期间每秒钟从页面空间中读取的4k页面数;
PgspOut:在监控期间每秒钟写入页面空间的4k页面数;
PageIn:在监控期间每秒钟读取的4k页面数,这包括从文件系统读操作相关的页面活动,
从这个值减去PgspOut的值就是每秒钟向文件系统写操作相关的页面活动数。
PageOut:在监控期间每秒钟写入的4k页面数,这包括向文件系统写操作相关的页面活
动,从这个值减去PgspOut的值就是每秒钟向文件系统写操作相关的分页活动数;
Sios:在监控期间通过虚拟内存管理器得到的I/O请求数;
说明:换页空间即磁盘上的空间,在AIX操作系统中用来做内存空间使用。只是内存页面的一个暂时存放地,存放的是那些长期不怎么用到的内存页面而已。如果paging大量出现,这时候就有麻烦了,说明内存不够用了!该区域主要关注PageIn,PageOut如果这两个数值均大于三位数,并且长期大于这个数值,则有可能存在内存颠簸,即不停的把内存页面换到磁盘空间上,又从磁盘空间把内存页面读进来,系统的内存使用效率变的极差,系统响应性能也变慢了。
8、MEMORY反映内存使用的信息区域:
Real,MB:操作系统实际拥有的内存的总量,单位是MB。
%Comp:计算型内存占用比率。
%Noncomp:非计算型内存占用的比率。
%Client:也为非计算型内存,Noncomp包涵Client型内存,jfs文件系统使用的内存为noncomp:为了区分,jfs2和nfs使用的内存为Client。
说明:计算型内存就是进程实际使用的内存,包括堆栈,进程中变量等数值。当一个进程终止时,将释放其物理和页面空间。在 VMM 中,当空闲物理内存较少时(即计算内存与非计算内存之和接近100时),可以将最近没有使用的程序从 RAM 移出到分页空间,以帮助释放物理内存,从而完成更多的实际工作。
非计算内存就是当有大量文件类操作,如压缩、数据库的dump/load等操作会大量时使用非计算内存。如果按照系统缺省的配置,非计算内存最多会占用到内存总量的90%(AIX5L为80%),由于非计算内存占用并不主动释放,直到文件被卸载、页面被替换、或者取消了到文件的链接才会释放。从而可能造成内存资源的短缺及Paging Space使用率过高。这时可以通过降低minperm、maxperm的参数值来进行调优,减少非计算内存可占用的份额。
9、PAGING SPACE:反映的是页面空间的使用情况区域
Size,MB:系统里所有页面空间的大小,以M为单位;
%Used:当前使用的页面空间占总空间的百分比;
%Free:当前空闲的页面空间占总空间的百分比。
页面空间大小的设置:现在的小型机普遍内存比较大,当内存超过4GB时,则需要根据实际情况来定,一般可初始3GB, 然后观察paging space的使用情况,如果使用率超过70%, 则需要增加paging space
还可以参考文章:
http://www.doc88.com/p-673304375714.html
事件/队列 | 显示选定的系统全局事件的每秒频率、线程运行和等待队列的平均大小:
上下文切换
|
文件/TTY | 显示所选文件与 tty 统计信息的每秒频率。
读字符
|
页面调度 | 显示页面调度统计信息的每秒频率。
故障
|
内存 | 显示实际内存大小与内存使用的分布情况。
实内存,MB
|
调页空间 | 显示调页空间的大小和使用率
大小,MB
|
NFS | 显示每秒调用的 NFS 状态
|
CPU 使用率
此子节显示一个条形图表来表示累积的 CPU 使用率。如果有多个 CPU,按 c 键两次 就可显示 CPU 列表。仅按 c 键一次将会关闭此子节。以下字段通过两种格式显示:
用户百分比 :这显示以用户方式执行的程序所使用的 CPU 的百分比。(缺省按用户百分比排序) : 这个为CPU使用率的关键数值。该使用率反映了用户在操作系统基础上运行的各种软件占用的CPU时间比率的总和。一般来说,如果User+Kernel连续大于70%,即可以认为系统可能存在CPU上的严重性能问题。
内核百分比 :这显示以内核方式执行的程序所使用的 CPU 的百分比。操作系统作为基础软件,为应用程序支持和服务的同时,本身的运行也需要一定的CPU和内存。特别是内存资源,系统负载越重,相应的内核占用的CPU和内存资源也会越多。一般来说,内核占用的CPU时间不会太多的。一般小于应用的CPU使用率。
等待百分比 :这显示用于等待 IO 的时间的百分比。CPU的等待一般都为等待IO的响应,众所周知,目前计算机的主要瓶颈都在IO。应用程序执行的时候,需要读写磁盘等外部存储的数据,进程就会发起IO请 求后等待IO完成。这个等待的过程占用CPU时间就是wait。当这个值很高的时候,就说明IO来不及响应很多的IO请求,这个时候,就只能从IO层面想 办法优化了。
空闲百分比 :这表示 CPU 空闲时间的百分比。CPU占用率出问题的主要可能原因:数据库服务器执行某一个SQL或者存储过程需要大量的运算(一般为软件设计不合理)。或者应用程序中存在异常的地方,比如死循环,或者其他写程序时的逻辑错误导致。一般程序出错会导致一个CPU被全部占用,比如上述的20%占用的原因就是一个交易程序长期占用一个CPU全部时间片。
当此子节首先显示热 CPU 列表时,就按用户百分比字段来对列表排序。但是,可以按其它字段来对列表排序,只要将光标移到期望栏的顶部就可以了。
网络接口
此子节显示了热网络接口的列表。所显示接口的最大数目是正在受监视的热接口数目,如 -n 标志指定的那样。如果其它子节也正在被显示,则将显示接口的一个较小数目。按n 键可关闭此子节。再次按 n 键显示一行所有网络接口活动的报告摘要。两个报告都显示以下字段:
接口 :网络接口的名称。
千位/秒 :在监视时间间隔内每秒钟以 MB 为单位的总吞吐量。该字段是每秒接收到的千字节和发送的千字节的总和。
输入包 :在监视时间间隔内每秒钟接收到的数据包的数目。
输出包 :在监视时间间隔内每秒钟发送的数据包的数目。
输入千字 :在监视时间间隔内每秒钟接收到的千字节的数目。
输出千字节 :在监视时间间隔内每秒钟发送的千字节的数目。
当此子节首先显示热网络接口列表时,按 KBPS 字段对列表排序。但是,可以按其它字段对列表排序,只要将光标移到期望栏的顶部就可以了。排序仅对最多 16 个网络适配器有效。
当我们发现网络拥堵时(出现网卡传输失效的报错,即网卡发送数据包失败。或者网络响应明显变慢的时候,如果CPU没有问题,那么请检查网络流量)发现某一个网卡的KBPS持续大于四位数,甚至五位数时(这个值要是网卡千兆还是百兆而定)。就要看看这个网卡是什么网卡,在处理什么业务了。在命令行执行netstat –in 查看对应en*接口的ip地址,通过ip地址看看是带官网卡还是生产服务网卡流量高。然后通过netstat –v en* 看看网卡的详细工作状态,出现了多少错包,冲突包,crc校验错或者网络重置过等信息。上述信息请详细看netstat –v en*的输出.如果出现大量crc,错包的话,可能网线有问题或者接触不良。
如果上述均正常,而网络反应慢,则有可能是交换机拥堵。
网络出现问题的可能原因:通过百兆的带管网加载大量数据(以前出现过),大量队列的长时间的ftp传输,或者网线,交换机问题等。
磁盘
物理磁盘 此子节显示热物理磁盘列表。所显示物理磁盘的最大数目是正受监视的热物理磁盘数目,正如 -d 标志指定的那样。如果其它子节也正在被显示,则将显示物理磁盘的一个较小数目。按 d 键可关闭此子节。再次按 d 键显示一行所有物理磁盘活动的报告摘要。两个报告都显示以下字段:
物理磁盘的名称。
忙碌百分比 :表示物理磁盘活动时间的百分比(驱动器带宽使用率)。 Disk Busy%磁盘繁忙的百分比,即磁盘能满足的最大IOPS(每秒IO操作数)和当前IO数量的比率。 一般主要看磁盘的Busy%,当磁盘的Busy%持续大于85%时,即认为磁盘相当繁忙,已经可能要出问题了。当然,自己知道已经确定要产生大量IO操作的内容则不必在意,等其完成即可。 出现问题的原因:应用服务器上面写日志进程或者查询日志的进程大量读写日志,导致磁盘繁忙率高,或者其他程序频繁读写磁盘导致。系统中hdisk0,hdisk1一般为系统盘,内置SCSI磁盘的相对IOPS是较低的。很容易满负荷运行。
千位/秒 :在监视时间间隔内每秒钟读和写的千字节的数目。此字段是 KB-Read 和 KB-Writ 的总和。
TPS :每秒钟向物理磁盘发出的传输数目。传输是对物理磁盘的 I/O 请求。多个逻辑请求可组合成对磁盘的单个 I/O 请求。传输大小不确定。
读取千字节 :每秒钟从物理磁盘读取的千字节的数目。
写入千字节 :每秒钟写到物理磁盘的千字节的数目。
当此子节首先显示热物理磁盘列表时,按KBPS 字段对列表排序。但是,可以按其它字段对列表排序,只要将光标移到期望栏的顶部就可以了。排序仅对最多 128 个物理磁盘有效。
进程
此子节显示热进程列表。所显示进程的最大数目是正在受监视的热过程数目,如 -p 标志指定的那样。如果其它子节也正在被显示,则将显示进程的一个较小数目。按 p 键可关闭此子节。按监视时间间隔内进程的 CPU 使用率来对进程排序。对于每一进程会显示以下字段:
名称 :在进程中执行的可执行程序的名称。名称已被除去任何路径名和参数信息并被截断到 9 个字符的长度。
进程标识 :进程的进程标识。
CPU 使用率百分比 :在监视时间间隔内进程的平均 CPU 使用率。第一次显示进程时,此值表示整个进程生命期上的平均 CPU 使用率。
已使用调页空间 :分配给此进程的调页空间的大小。这可被认为是进程覆盖区的一种表达,但并不包括用来保持可执行程序和它依赖的任何共享库的内存。
进程所有者 (如果 WLM 部分被关闭) :拥有此进程的用户的用户名。
工作负载管理(WLM)类 (如果 WLM 部分被打开) :进程所属的 WLM 类。
在topas中,默认是列出占用cpu最高的前几个的进程信息供参考,如果前面第一区域的的CPU使用率持续高,就要看看这里是那个进程占用了大量的CPU资源,看看是哪个用户的进程,如果自己执行的,则杀掉或者找项目组解决即可。
参数列表
子命令
当 topas 运行时,它接受单字符的子命令。每次监视时间间隔过去时,程序会对以下子命令之一进行检查并对所请求的操作作出响应。
a | a 键可显示所有正在受监视的变量子节(CPU、网络、磁盘、WLM、过程)。按 a 键总使 topas命令返回到初始主显示屏幕。 |
c | c 键可使 CPU 子节在累积报告、关闭和最忙 CPU 列表这三者之间进行切换。所显示的最忙 CPU 数目将取决于屏幕上的可用空间。 |
d | d 键可使磁盘子节在最忙磁盘列表、关闭和系统全部磁盘活动的报告这三者之间进行切换。所显示的最忙磁盘数目将取决于屏幕上的可用空间。 |
h | 显示帮助屏幕。 |
n | n 键可使网络接口子节在最忙接口列表、关闭和系统全部网络活动的报告这三者之间进行切换。所显示的最忙接口数目将取决于屏幕上的可用空间。 |
w | w 键可在打开与关闭工作负载管理(WLM)类子节之间进行切换。所显示的最忙 WLM 类数目取决于屏幕上的可用空间。 |
p | p 键可在打开与关闭热进程子节之间进行切换。所显示的最忙进程数目取决于屏幕上的可用空间。 |
P | 大写 P 键用全屏幕进程显示来替换缺省显示。有关运行在系统上的进程,此显示提供了比主显示的进程部分更详细的的信息。再次按 P 键时,就会切换回缺省主显示。 |
W | 大写 W 键用全屏幕 WLM 类显示来替换缺省显示。此显示提供了有关 WLM 类和指定给类的进程的更详细信息。再次按 W 键时,就会切换回缺省主显示。 |
f | 将光标移动到一个 WLM 类上,并按 f 键就可在 WLM 屏幕底部显示该类中顶部进程的列表。该键功能只有 topas 在全屏幕 WLM 显示(通过使用 W 键或 -W 标志)时才有效。 |
q | 退出程序。 |
r | 刷新显示。 |
箭头键与跳格键 | 主显示中的各个子节,诸如 CPU、网络、磁盘、WLM 类、全屏幕 WLM 与进程显示的子节可按不同标准进行排序。将光标移动到一栏上,然后会按该栏进行排序。各项总是从最高值到最低值排序。使用跳格 键或箭头键来移动光标。排序只对 128 个磁盘和 16 个网络适配器有效。 |
常用用法
1、要每 5 秒显示最多 20 个“热”磁盘而省略网络接口、WLM 类和进程信息,请输入:
#topas -i5 -n0 -p0 -w0
2、要显示 5 个最活跃的进程和最多 20 个最活跃的 WLM 类(省略 -w 标志时此为缺省值),而不显示网络或磁盘信息,请输入:
#topas -p5 -n0 -d0
3、要使用缺省选项运行程序,请输入:
#topas
4、要直接进入进程显示,请输入:
#topas -P
5、要直接进入 WLM 类显示,请输入:
#topas -W
参考至:http://www.kuqin.com/aixcmds/aixcmds5/topas.htm#a26866631
http://www.iteye.com/topic/638455