在AIX中,errpt用于报告系统软硬件相关的错误日志信息,errpt 命令将从错误日志中的条目生成一个错误报告,但是它并不进行错误日志分析;对于错误分析,可以使用 diag 命令,不带参数简单列出所有的错误,

root@ptdb1:/# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
E87EF1BE   0507150014 P O dumpcheck      The largest dump device is too small.
E87EF1BE   0506150014 P O dumpcheck      The largest dump device is too small.
E87EF1BE   0505150014 P O dumpcheck      The largest dump device is too small.
E87EF1BE   0504150014 P O dumpcheck      The largest dump device is too small.
E87EF1BE   0503150014 P O dumpcheck      The largest dump device is too small.
E87EF1BE   0502150014 P O dumpcheck      The largest dump device is too small.
E87EF1BE   0501150014 P O dumpcheck      The largest dump device is too small.
E87EF1BE   0430150014 P O dumpcheck      The largest dump device is too small.


errpt -a 命令生成了一个错误报告:

---------------------------------------------------------------------------
LABEL:          DMPCHK_TOOSMALL
IDENTIFIER:     E87EF1BE

Date/Time:       Sat Apr 26 11:12:24 CST 2014
Sequence Number: 900
Machine Id:      00F8700E4C00
Node Id:         ptdb1
Class:           O
Type:            PEND
WPAR:            Global
Resource Name:   dumpcheck      

Description
The largest dump device is too small.

Probable Causes
Neither dump device is large enough to accommodate a system dump at this time.

       Recommended Actions
       Increase the size of one or both dump devices.

Detail Data
Largest dump device
lg_dumplv                                                                                                                      
Largest dump device size in kb
    8388608
Current estimated dump size in kb
    8504770

其中:
LABLE:事件名称

IDENTIFIER:事件ID

Date/Time:发生的时间

Sequence Number:事件序列号

Machine ID:机器标识

Node ID:节点标识

Class:事件来源
S-软件
H-硬件
I-信息
U-未定的

Type:事件类型
PEND-设备或组件的可用***损失是急迫的。
PERF-设备或组件的***能已下降到可接受的级别以下。
PERM-出现了不可恢复的情况。如果错误类型为这个值,那么通常是最严重的错误,并且很可能意味着出现了硬件设备或者软件模块的故障。如果错误类型为 PERM 之外的其他值,通常并不表示故障,但是对这些错误进行了记录,以便可以使用诊断程序对它们进行分析。
TEMP—在出现多次不成功的尝试之后,所恢复到的状态。这种错误类型也可以用于记录信息***条目,如 DASD 设备的数据传输统计信息。
UNKN—无法确定错误的严重程度。
INFO—错误日志条目是信息***的,并且不是某个错误所产生的结果。

Resource Name:检测到错误的资源的名称。对于软件错误,这是某个软件组件或可执行程序的名称。对于硬件错误,这是某个设备或系统组件的名称。它并不表示该组件出现故障或者需要更换。相反,它用于确定合适的诊断模块以用于对错误进行分析。

Resource Class:检测到故障的资源的一般类别(例如,磁盘的设备类别)。

Resource Type:检测到故障的资源的类型。

Location Code:设备的路径。最多可能有四个字段,分别是抽屉、插槽、连接器和端口。

VPD:关键的产品数据。这个字段的内容(如果存在)可能各不相同。设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。

Description:错误的汇总信息。

Probable Cause:一些可能的错误原因的列表。

User Causes:由用户错误所导致错误的可能原因的列表。用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备(如调制解调器和打印机)。

Actions:对于纠正用户所导致的错误的推荐操作的描述。

Install Causes:因为不正确的安装或者配置过程所导致错误的可能原因列表。这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松,以及未能正确配置的系统。

Actions:对于纠正安装所导致的错误的推荐操作的描述。

Failure Causes:可能的硬件或者软件故障列表。

Actions:对于纠正故障的推荐操作的描述。对于硬件错误,这将导致运行诊断程序。

Detailed Data:针对每个错误日志条目的、唯一的故障数据,如设备检测数据。



参考:http://www.ibm.com/developerworks/cn/aix/redbooks/test222/problem-determine/1.html?ca=drs-cn



关于dump 文件过小的提示,跟踪了一段发现dump文件一直的扩大,现在已经达到9G了,因为我的内存是256G,看了网上的一篇资料 http://www.aixchina.net/home/space.php?uid=56585&do=blog&id=31321


下面是常见的转储设备大小规则
当服务器的内存大于4GB时,在安装AIX时,就会为系统 dump 创建一专用区域,该逻辑卷名就是 lg_dumplv. 其缺省大小是按以下规则分配的:
4GB < = 服务器的内存 〈 12GB lg_dump 的大小为 1GB
12GB < = 服务器的内存 〈 24GB lg_dump 的大小为 2GB
24GB < = 服务器的内存 〈 48GB lg_dump 的大小为 3GB
48GB < = 服务器的内存 lg_dump 的大小为 4GB


感觉8Gdump也够用了,把报错提交给了IBM,希望能找到dump一直在增长的原因,IBM的人就说扩吧,最好能扩到你内存的四分之一,汗,那有那么多空间分配啊;最后还是使用extendlv   #extendlv lg_dumplv 6

命令扩展了扩建卷,