1,登陆到F85主机,仔细查看错误日志,确认系统镜像盘hdisk0的故障:
# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
2F3E09A4   0801151907 I H hdisk0         REPAIR ACTION
16F35C72   0801083807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0801003807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0731163807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0731083807 P H hdisk0         DISK OPERATION ERROR
B6048838   0731051907 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
B6048838   0731043107 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
B6048838   0731041907 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
16F35C72   0731003807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0730163807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0730083807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0730003807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0729163807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0729083807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0729003807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0728163807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0728083807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0728003807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0727163807 P H hdisk0         DISK OPERATION ERROR
2,打开机器前面板,根据硬盘使用繁忙程度(比较两块硬盘指示灯闪烁情况)初步判断系统镜像盘位于前面板右下侧硬盘笼子中的一号插槽,三号插槽中为hdisk1;
3,为进一步确保判断的准确性,请客户停掉主机上的应用、关闭数据库、关闭系统。待所有操作完成,打开硬盘笼子挡板,手工拔去一号插槽中的硬盘,重新启动到系统,“lsdev –Cc disk”观察hdisk0和hdisk1的状态,hdisk0由上次的“available”变为“defined”,hdisk1没有变化,则说明位于硬盘笼一号插槽中确为hdisk0;
4,根据服务手册,硬盘笼中硬盘可热插拔。在主机运行的情况下将拔出的硬盘插入一号插槽,合上硬盘笼挡板;
5,通过命令“cfgmgr”重新识别到hdisk0,“lsdev –Cc disk”查看hdisk0状态转为“available”,但在“lsvg –p rootvg”中查看物理盘hdisk0的状态为“missing”而非“active”,表示仍然有问题;
6,对hdisk0进行删除镜像操作:
  # unmirrorvg rootvg hdisk0(取消hdisk0对rootvg的镜像)
  # chpv -c hdisk0(清除引导区)
  # reducevg rootvg hdisk0(将hdisk0从卷组中清除)
  # bootlist -m normal hdisk1(重设启动顺序)
7,“lsvg –p rootvg”观察,确认hdisk0已经脱离rootvg,打开硬盘笼挡板,拔出一号槽中的hdisk0,并将新带来的36G硬盘插入到一号槽中,合上硬盘笼挡板。“cfgmgr”重新扫描硬件设备,“lsdev –Cc disk”查看新加硬盘在系统中显示为“hdisk0”,且状态为“available”,表示此硬盘可用;
8,对hdisk0进行镜像操作:
  # chdev -l hdisk0 -a pv=yes(将新硬盘设为可用)
  # extendvg rootvg hdisk0(将hdisk0加入rootvg)
  # mirrorvg rootvg(对rootvg进行镜像,约二十分钟后镜像成功)
  # bosboot -a -d /dev/hdisk0(在hdisk0上创建启动映象)
  # bootlist -m normal hdisk1 hdisk0(重新设置启动顺序)
9,通过命令“lsvg –p rootvg”查看确认hdisk0已经包含在rootvg中并处于“active”状态,且使用pp数相同(一个pp等于64M):
# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk1            active            542         148         70..00..00..00..78
hdisk0            active            542         148         76..12..00..00..60

 

 

F85系统镜像盘更换实录之一:删除原有镜像操作
# cfgmgr
# lsdev -Cc disk
hdisk0 Available 11-09-00-8,0  16 Bit LVD SCSI Disk Drive
hdisk1 Available 11-09-00-10,0 16 Bit LVD SCSI Disk Drive
# lsvg          
rootvg
# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk1            active            542         148         70..00..00..00..78
hdisk0            missing           542         148         70..00..00..00..78
# unmirrorvg rootvg hdisk0
0516-1246 rmlvcopy: If hd5 is the boot logical volume, please run 'chpv -c '
        as root user to clear the boot record and avoid a potential boot
        off an old boot p_w_picpath that may reside on the disk from which this
        logical volume is moved/removed.
0516-1132 unmirrorvg: Quorum requirement turned on, reboot system for this
        to take effect for rootvg.
0516-1144 unmirrorvg: rootvg successfully unmirrored, user should perform
        bosboot of system to reinitialize boot records.  Then, user must modify
        bootlist to just include:  hdisk1.
# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk1            active            542         148         70..00..00..00..78
hdisk0            missing           542         542         109..108..108..108..109
# chpv -c hdisk0
# reducevg rootvg hdisk0
# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk1            active            542         148         70..00..00..00..78
# bootlist -m normal hdisk1

 

 

 

 

故障现象:一块S85硬盘在errpt中报错:
[root:/]errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
49A83216   0111232508 T H hdisk2         DISK OPERATION ERROR
处理过程:
1,errpt -a查看有关hdisk2故障的详细报告;
2,现场观察hdisk2状态灯为不正常状态;
3,lspv hdisk2查看hdisk2磁盘的从属关系:
[root:/]lspv hdisk2
PHYSICAL VOLUME:    hdisk2                   VOLUME GROUP:     rootvg
PV IDENTIFIER:      000d202d530d2928 VG IDENTIFIER     000d202d00004c0000000101ba50e580
PV STATE:           active                                    
STALE PARTITIONS:   0                        ALLOCATABLE:      yes
PP SIZE:            32 megabyte(s)           LOGICAL VOLUMES:  10
TOTAL PPs:          542 (17344 megabytes)    VG DESCRIPTORS:   1
FREE PPs:           194 (6208 megabytes)     HOT SPARE:        no
USED PPs:           348 (11136 megabytes)                     
FREE DISTRIBUTION:  86..00..00..00..108                       
USED DISTRIBUTION:  23..108..108..108..01
经查,hdisk2为hdisk0(系统启动盘)的镜像;
4,插入一块同样大小(73GB)硬盘到另外插槽,cfgmgr识别出为hdisk4;
5,chdev -a pv=yes -l hdisk4让磁盘变得可用;
6,extendvg rootvg hdisk4将hdisk4加入卷组rootvg当中;
7,migratepv hdisk2 hdisk4将hdisk2中所有信息移动到hdisk4中:
root:/]migratepv hdisk2 hdisk4
0516-1011 migratepv: Logical volume hd5 is labeled as a boot logical volume.
0516-1246 migratepv: If hd5 is the boot logical volume, please run 'chpv -c hdisk2'
        as root user to clear the boot record and avoid a potential boot
        off an old boot p_w_picpath that may reside on the disk from which this
        logical volume is moved/removed.
8,chpv -c hdisk2移除hdisk2中启动信息;
9,bosboot -ad /dev/hdisk4在hdisk4中加入启动信息;
10,reducevg rootvg hdisk2将hdisk2从rootvg中去除;
11,rmdev -l hdisk2 -d将hdisk2所有信息从系统中删除;
12,取出hdisk2;
13,bootlist -m normal hdisk0 hdisk4对原有启动顺序进行更改,将hdisk4取代hdisk2;
14,bootlist -m normal -o查看更改后的启动顺序是否生效:
[root:/]bootlist -m normal -o
hdisk0
hdisk4
整个过程完成。

 


昨天提到一客户那儿的突发事件,一台F85突然宕机,尝试重启或光盘/镜像盘启动都无法成功,最后认为问题出在电源上。因为就F85来说,两个电源是系统能够正常运行的充要条件。
    今天收到了F85的电源备件,拿到客户那儿将故障电源替换下来,加电测试,新加电源有反应。合上侧翼机盖、加电、开机,启动到启动画面的时候,液晶面板上显示“AIX is starting”,经过几分钟后,机器正常启动到登陆界面。
    用用户提供的用户名密码登陆到系统,diag、errpt检查系统运行状态、ping、telnet、netstat -in检查网络状态,su到oracle帐户下,启动数据库。至此,F85宕机故障解决。
    除此之外,有一个命令“script”值得提及。一般我们在做巡检的时候,可以通过打开本机安装的SecureCRT进行telnet操作,可以通过菜单栏里“file-log session”或“transfer-receive ASCII”这两个工具来将巡检过程保存到指定的记事本里。但像面对金融、安全这样的客户的时候,因为安全性的顾虑,我们被禁止使用自己的电脑对客户电脑进行telnet操作,而只能在客户指定的机器上通过dos来telnet到相应客户机。众所周知,在dos里面进行操作是没法运行像“粘贴、复制”这样的命令的,这个时候,我们就可以通过“script”命令来将操作保存到客户机上指定的文件,再通过ftp命令将指定文件进行拷贝,这样就有了一个详细的操作记录文档。
“script”命令的用法是:
1,telnet到对方机器,如“# telnet 192.168.1.170”;
2,在命令提示符下输入“script output.txt(可以手工指定此文档的保存目录)”,这时会在屏幕上出现以下字样:
Script command is started on Tue Jun  7 14:15:11 BEIST 2007.
3,进行巡检;
4,通过敲击“exit”命令退出“script”模式,这时会出现下列字样:
Script command is complete on Tue Jun  7 14:22:55 BEIST 2007.
5,“cat”或者“more”output.txt文件,就可以对刚才的巡检操作进行查看。