http://blog.chinaunix.net/uid-15866552-id-3967666.html

1、机器型号
# uname -uM
IBM,7029-6E3 IBM,01100550A
2、检查系统硬件设备故障灯是否有亮
3、系统错误报告
# errpt -d H -T PERM //硬件的错误报告
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
BFE4C025   0530085308 P H sysplanar0     UNDETERMINED ERROR
BFE4C025   0529091308 P H sysplanar0     UNDETERMINED ERROR
# errpt -d S -T PERM //软件的错误报告
# errpt -aj *******|more //具体的错误信息
# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件
4、有否给 root 用户的错误报告
# mail
Mail [5.2 UCB] [AIX 5.X]  Type ? for help.
"/var/spool/mail/root": 5 messages 3 new 5 unread
U  1 root              Thu May 15 09:53  24/884  "diagela message from p615"
U  2 root              Fri May 16 04:07  24/884  "diagela message from p615"
>N  3 root              Sat May 24 13:08  23/874  "diagela message from p615"
5、检查 hacmp.out, smit.log, bootlog 等
# l***c -g cluster/#>l***c -g cluster
Subsystem         Group            PID          Status
clstrmgrES       cluster          16334        active
一般上 hacmp.out 的位置: /usr/sbin/cluster/ 或者 /tmp/
然后找到最近的 hacmp.out 文件,察看有没有错误信息
6、文件系统检查
# df -k
Filesystem    1024-blocks      Free %Used    Iused %Iused Mounted on
/dev/hd4           131072    101568   23%     2268     4% /
/dev/hd2          1441792     31256   98%    36056    11% /usr
/dev/hd9var        131072    117048   11%      418     2% /var
看看有没有超过 90% 使用率的,建议用户改善
7、逻辑卷有否 "stale" 的状态
# lsvg -l rootvg
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1     1     1    closed/syncd  N/A
hd6                 paging     4     4     1    open/syncd    N/A
hd8                 jfslog     1     1     1    open/syncd    N/A
hd4                 jfs        1     1     1    open/syncd    /
hd2                 jfs        11    11    1    open/syncd    /usr
hd9var              jfs        1     1     1    open/syncd    /var
如果系统还有其他卷组,也需要察看
8、内存交换区的使用率是否超过 70%
# lsps -a
Page Space      Physical Volume   Volume Group    Size %Used Active  Auto  Type
hd6             hdisk0            rootvg         512MB     1   yes   yes    lv

9、系统***能是否有瓶颈
# topas
# vmstat 1 10
kthr    memory              page              faults        cpu
----- ----------- ------------------------ ------------ -----------
r  b   avm   fre  re  pi  po  fr   sr  cy  in   sy  cs us sy id wa
0  0 110029 408618   0   0   0   0    0   0   4  602  75  0  1 99  0
0  0 110031 408616   0   0   0   0    0   0   1  562  54  1  0 99  0
0  0 110031 408616   0   0   0   0    0   0   3  628  84  0  0 99  0
# iostat 1 10
tty:      tin         tout    avg-cpu: % user % sys % idle % iowait
          0.0        394.0                0.0   0.0  100.0      0.0
Disks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn
hdisk0           0.0       0.0       0.0          0         0
hdisk1           0.0       0.0       0.0          0         0
cd0              0.0       0.0       0.0          0         0
10、网络与通讯检查
# ifconfig -a

# netstat -in
Name  Mtu   Network     Address            Ipkts Ierrs    Opkts Oerrs  Coll
en0   1500  link#2      0.9.6b.3e.6.ac        1964     0      534     0     0
en0   1500  192.168.0   192.168.0.11          1964     0      534     0     0
lo0   16896 link#1                             267     0      413     0     0
lo0   16896 127         127.0.0.1              267     0      413     0     0
# netstat -rn //察看路由情况
Routing tables
Destination      Gateway           Flags   Refs     Use  If   Exp  Groups
Route Tree for Protocol Family 2 (Internet):
127/8            127.0.0.1         U         7       142 lo0      -      -
192.168.0.0      192.168.0.11      UHSb      0         0 en0      -      -   =>
# vi /etc/hosts //察看 hosts 文件有否特殊的定义
# ping ****
#lsattr -El inet0 //路由的检测
authm         65536               Authentication Methods           True
hostname      h24                 Host Name                        True
gateway                           Gateway                          True
route         net,,0,172.16.23.81 Route                            True
bootup_option no                  Serial Optical Network Interface True
rout6                             FDDI Network Interface           True
11、有否符合要求的系统备份
第一次去可以先询问客户关于备份的策略
# ls -l /p_w_picpath.data //看看系统有没有备份的 p_w_picpath 文件,记录最后备份日期
-rw-r--r--   1 root     system         9600 May 19 17:31 /p_w_picpath.data

# lsvg -l rootvg //察看有否符合要求的数据备份和保护
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd4                 jfs        1     1     1    open/syncd    /
hd2                 jfs        11    11    1    open/syncd    /usr
hd10opt             jfs        1     1     1    open/syncd    /opt
oraclelv            jfs2       80    160   1    open/syncd    /oracle
loglv00             jfs2log    1     1     1    open/syncd    N/A
testlv              jfs        10    20    1    closed/syncd  /tmp/test
如何察看数据保护方式 RAID10/RAID5,RAID 的Hotspare 属***是否打开
#smitty ssaraid? Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属***是否为YES
12、系统 Dump 设置是否正确
# sysdumpdev -l
primary              /dev/hd6
secondary            /dev/sysdumpnull
copy directory       /var/adm/ras
forced copy flag     TRUE
always allow dump    FALSE
dump compression     OFF
# sysdumpdev P p /dev/hd6 s /dev/sysdumpnull
# sysdumpdev -P -c
13、HACMP 测试
# /usr/sbin/cluster/diag/clconfig -v '-tr'  // Cluster Verification 输出结果无Fail
# /l***c -g cluster
14、maxpout, minpout 系统参数
如果系统***诵辛薍ACMP
smitty chgsysy,将High/Low water mark从0/0修改为33/24
# lsattr -El sys0|grep maxpout
//maxpout 用途: 对文件指定未决 I/O 的最大数目
值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数加 1)
# lsattr -El sys0|grep minpout
//指定一个基点,在该基点处,已达到 maxpout 的程序可以继续写入文件
值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数,且大于或等于 4 小于 maxpout)
15、syncd 参数
# grep syncd /sbin/rc.boot //sync() 被 syncd 调用的间隔时间
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &
值: 缺省值:60;范围:1 到任何正整数
显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot
更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序
syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。
诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了。
调整: 在缺省级别上,这个参数几乎不影响***能。不推荐对这个参数进行更改。为了保持数据完整
***对于 HACMP而使 syncd interval 明显缩小,会导致***能下降。
更改命令为:
#vi /sbin/rc.boot
16、aio 参数 //异步 I/O 可调参数
# lsdev -C|grep aio
察看状态是否是 available
# lsattr -El aio0
minservers 1         MINIMUM number of servers                True
maxservers 10        MAXIMUM number of servers                True
maxreqs    4096      Maximum number of REQUESTS               True
kprocprio  39        Server PRIORITY                          True
autoconfig available STATE to be configured at system restart True
fastpath   enable    State of fast path                       True
# smit aio  //可以更改参数
17、检查 errdaemon, srcmstr 是否正常运行
# ps -ef|grep err
# ps -ef|grep src
18、 系统硬件诊断
# diag
-> Diagnostic Routines
-> System Verification
-> All Resources
-> F7 或者 Esc+7
19、补丁程序 PTF 是否满足要求,当前系统补丁版本
#oslevel -r
5300-04
#instfix -i|grep
    All filesets for 5.3.0.0_AIX_ML were found.
    All filesets for 5300-01_AIX_ML were found.
    All filesets for 5300-02_AIX_ML were found.
    All filesets for 5300-03_AIX_ML were found.
    All filesets for 5300-04_AIX_ML were found.
    All filesets for 5300-05_AIX_ML were found.
# lscfg -vp //检查所有设备的微码
20、收集系统信息放到/tmp/ibmsupt
# snap -ac //运行#snap -ac,生成文件snap+s/n.pax.Z

 

~~~~~~~~~~~

企业的业务数据库系统是IT运维的重中之重,为使数据库长期稳定的运行,需要相关人员对数据库进行每日巡检和记录,下面对数据库日常巡检工作做一个全面详细的计划:

一、小型机日常巡检:

  1. 1. 检查小型机硬件健康状态
    1.1 显示内核启用的是32位还是64位
    # bootinfo -K
    64
    1.2 显示硬件32位还是64位:
    # bootinfo -y
    64
    1.3 显示以KB为单位的实际内存:
    # bootinfo -r
    32505856
    1.4 显示系统上的硬盘数量
    # lspv
    hdisk0 00c7c505bc0669c5 rootvg active
    hdisk1 00c7c50592cdd77a rootvg active
    hdisk2 00cb9934c0a92e73 datavg active
    hdisk3 00c7c505ce5e6688 datavg active
    1.5 查看硬盘hdisk1的详细信息:
    # lspv hdisk1
    PHYSICAL VOLUME: hdisk1 VOLUME GROUP: rootvg
    PV IDENTIFIER: 00c7c50592cdd77a VG IDENTIFIER 00c7c50500004c0000000129bc06773f
    PV STATE: active
    STALE PARTITIONS: 0 ALLOCATABLE: yes
    PP SIZE: 512 megabyte(s) LOGICAL VOLUMES: 14
    TOTAL PPs: 558 (285696 megabytes) VG DESCRIPTORS: 2
    FREE PPs: 224 (114688 megabytes) HOT SPARE: no
    USED PPs: 334 (171008 megabytes) MAX REQUEST: 1 megabyte
    FREE DISTRIBUTION: 01..00..00..111..112
    USED DISTRIBUTION: 111..112..111..00..00
    MIRROR POOL: None

    # smitty fs
    # smitty lvm

    1.6 查看处理器数量:
    # lscfg | grep proc
    + proc0 Processor
    + proc2 Processor
    + proc4 Processor
    + proc6 Processor
    1.7 查看一个CPU的详细信息:
    # lsattr -El proc0
    frequency 4204000000 Processor Speed False
    smt_enabled true Processor SMT enabled False
    smt_threads 2 Processor SMT threads False
    state enable Processor state False
    type PowerPC_POWER6 Processor type False
    #
    1.8 查看系统硬件资源列表:
    #lscfg
    1.9 查看芯片类型:
    # uname -p
    powerpc
    1.10 查看操作系统版本号:

    1.11 显示系统名称:
    # uname -s
    AIX
    1.12 显示节点名称:
    # uname -n
    DL-DB-02
    1.13 显示uname的很多信息(系统名称、节点名称、版本、计算机ID):
    # uname -a
    AIX DL-DB-02 1 6 00C7C5054C00
    1.14 显示系统型号:
    # uname -M
    IBM,8204-E8A
    1.15 显示操作系统版本:
    # uname -v
    6
    1.16 显示运行系统的硬件的计算机ID编号:
    # uname -m
    00C7C5054C00
    1.17 显示系统ID编号:
    # uname -u
    IBM,02067C505
    1.18 显示AIX的主要版本、次要版本和维护级:
    # oslevel -r
    6100-04
    # lslpp -h bos.rte
    Fileset Level Action Status Date Time
    ----------------------------------------------------------------------------
    Path: /usr/lib/objrepos
    bos.rte
    6.1.4.0 COMMIT COMPLETE 07/10/10 19:07:31


    Path: /etc/objrepos
    bos.rte
    6.1.4.0 COMMIT COMPLETE 07/10/10 19:07:31
    #
    1.19 查看磁盘使用情况(参数k表示以k为单位,m表示以M为单位):
    # df -k
    Filesystem 1024-blocks Free %Used Iused %Iused Mounted on
    /dev/hd4 5242880 5039512 4% 14271 2% /
    /dev/hd2 11534336 5382688 54% 52471 5% /usr
    /dev/hd9var 5242880 4544720 14% 7487 1% /var
    /dev/hd3 10485760 10397956 1% 4002 1% /tmp
    /dev/fwdump 1048576 1046932 1% 13 1% /var/adm/ras/platform
    /dev/hd1 5242880 5241708 1% 8 1% /home
    /dev/hd11admin 524288 523848 1% 5 1% /admin
    /proc - - - - - /proc
    /dev/hd10opt 10485760 5696856 46% 10713 1% /opt
    /dev/livedump 524288 523880 1% 4 1% /var/adm/ras/livedump
    /dev/oradmpbak 10485760 4488028 58% 28042 3% /orainstbak1
    /dev/oraclebak 62914560 9605248 85% 33 1% /oradatabak1
    /dev/oradata 367001600 321016968 13% 33 1% /oradata
    /dev/orainst 20971520 14943512 29% 28707 1% /orainst
    1.20 查看文件大小
    # du -s tmp
    166552 tmp

  2. 2. 检查系统报错信息
    2.1 显示简短报错信息
    # errpt | more
    TIMESTAMP: MMDDHHMMYY (月日时分年)
    T(类型): P 永久; T 临时; U 未知 (永久***的错误应引起重视)
    C(分类): H 硬件; S 软件; O 用户; U未知
    2.2 列出所有硬件出错信息:
    # errpt -d H
    2.3 列出所有软件出错信息:
    # errpt -d S
    2.4 查看具体某个ID的报错信息:
    # errpt -aj D666A8C7 > aaa.txt
    D666A8C7是简短报错信息中的ID号。
    2.5 3.控制面板上的LED 代码
    .一般为8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。
    .4 位代码,通常是Exxx。
    .3 位代码,通常为0yyy,只看后3位。
    .8 位和4位代码可查看系统服务手册 (Service Guide)。
    3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。
    .闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。
    888-102 一般为软件故障(888-102-207 例外)
    系统会产生一个dump。
    888-102-xxx-0C9 系统正在做dump, 请等待。
    888-102-xxx-0C0 系统dump完成,可关电重启。
    888-103 或 105
    硬件故障,一般有 SRN 代码及位置代码。
    2.6 SMS (System Management Service) 故障记录
    当主控台出现键盘图标后(LED 显示E1F1时)按1键。进入SMS 菜单
    选择"Utilities"
    选择"Error Log", 抄下8位故障代码
    (在SMS 中还可以更改系统启动顺序表

  3. 3. 查看操作系统日志
    errpt -a | head -150

  4. 4. 查看相关用户mail
    # mail
    # su - oracle
    $ mail
    31 esaadmin Sun Jan 9 03:01 15/735 "Electronic Service Agent not"
    ?

    会出现所有邮件的列表,这时在“?”后面按数字表示要查看那一封邮件。按“h”表示查看邮件列表。

  5. 5. 检查CPU利用率
    # sar 1 5


    AIX DL-DB-02 1 6 00C7C5054C00 10/29/13


    System configuration: lcpu=8 mode=Capped


    15:10:57 %usr %sys %wio %idle physc
    15:10:58 16 1 0 83 4.10
    15:10:59 44 2 0 54 3.95
    15:11:00 11 1 0 88 3.97
    15:11:01 1 0 0 99 4.00
    15:11:02 24 2 0 75 4.00


    Average 19 1 0 80 4.00
    #
    %usr + %sys > 80% 的时候 CPU将是瓶颈

    5.2 # topas

  6. 6. 检查内存利用率

    # vmstat


    System configuration: lcpu=8 mem=31744MB


    kthr memory page faults cpu
    ----- ----------- ------------------------ ------------ -----------
    r b avm fre re pi po fr sr cy in sy cs us sy id wa
    1 2 6211275 29987 0 0 0 130 261 0 82 3730 558 2 0 97 0
    #
    # vmstat -v
    8126464 memory pages
    7873088 lruable pages
    15376 free pages
    2 memory pools
    691381 pinned pages
    80.0 maxpin percentage
    3.0 minperm percentage
    90.0 maxperm percentage
    22.8 numperm percentage
    1801544 file pages
    0.0 compressed percentage
    0 compressed pages
    22.8 numclient percentage
    90.0 maxclient percentage
    1801544 client pages
    0 remote pageouts scheduled
    0 pending disk I/Os blocked with no pbuf
    0 paging space I/Os blocked with no psbuf
    2484 filesystem I/Os blocked with no fsbuf
    754 client filesystem I/Os blocked with no fsbuf
    2483337 external pager filesystem I/Os blocked with no fsbuf
    #

    6.2
    # svmon
    size inuse free pin virtual mmode
    memory 8126464 8041605 84859 688230 6156257 Ded
    pg space 12582912 19307


    work pers clnt other
    pin 446593 0 2773 238864
    in use 6156257 0 1885348


    PageSize PoolSize inuse pgsp pin virtual
    s 4 KB - 7408421 19307 327814 5523073
    m 64 KB - 39574 0 22526 39574
    #
    # svmon -G
    size inuse free pin virtual mmode
    memory 8126464 8056058 70406 689450 6185976 Ded
    pg space 12582912 19692


    work pers clnt other
    pin 447813 0 2773 238864
    in use 6185976 0 1870082


    PageSize PoolSize inuse pgsp pin virtual
    s 4 KB - 7420874 19692 327818 5550792
    m 64 KB - 39699 0 22602 39699
    #

  7. 7. 检查虚拟内存利用率
    # lsps -a
    Page Space Physical Volume Volume Group Size %Used Active Auto Type Chksum
    hd6 hdisk0 rootvg 49152MB 1 yes yes lv 0
    #

  8. 8. 检查系统磁盘空间利用率
    # df -k
    Filesystem 1024-blocks Free %Used Iused %Iused Mounted on
    /dev/hd4 5242880 5039212 4% 14272 2% /
    /dev/hd2 11534336 5382376 54% 52471 5% /usr
    /dev/hd9var 5242880 4553428 14% 7487 1% /var
    /dev/hd3 10485760 10397952 1% 4003 1% /tmp
    /dev/fwdump 1048576 1046932 1% 13 1% /var/adm/ras/platform
    /dev/hd1 5242880 5241708 1% 8 1% /home
    /dev/hd11admin 524288 523848 1% 5 1% /admin
    /proc - - - - - /proc
    /dev/hd10opt 10485760 5696856 46% 10713 1% /opt
    /dev/livedump 524288 523880 1% 4 1% /var/adm/ras/livedump
    /dev/oradmpbak 10485760 4488028 58% 28042 3% /orainstbak1
    /dev/oraclebak 62914560 9605248 85% 33 1% /oradatabak1
    /dev/oradata 367001600 321016968 13% 33 1% /oradata
    /dev/orainst 20971520 14900920 29% 28709 1% /orainst
    #

  9. 9. 检查逻辑卷状态
    # lsvg -l rootvg
    rootvg:
    LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
    hd5 boot 1 2 2 closed/syncd N/A
    hd6 paging 96 192 2 open/syncd N/A
    hd8 jfs2log 1 2 2 open/syncd N/A
    hd4 jfs2 10 20 2 open/syncd /
    hd2 jfs2 22 44 2 open/syncd /usr
    hd9var jfs2 10 20 2 open/syncd /var
    hd3 jfs2 20 40 2 open/syncd /tmp
    hd1 jfs2 10 20 2 open/syncd /home
    hd10opt jfs2 20 40 2 open/syncd /opt
    hd11admin jfs2 1 2 2 open/syncd /admin
    fwdump jfs2 2 4 2 open/syncd /var/adm/ras/platform
    lg_dumplv sysdump 6 6 1 open/syncd N/A
    livedump jfs2 1 2 2 open/syncd /var/adm/ras/livedump
    oradmpbak jfs2 20 20 1 open/syncd /orainstbak1
    oraclebak jfs2 120 120 1 open/syncd /oradatabak1
    # lsvg -l datavg
    datavg:
    LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
    orainst jfs2 40 40 1 open/syncd /orainst
    oradata jfs2 700 700 2 open/syncd /oradata
    loglv00 jfs2log 1 1 1 open/syncd N/A
    #

  10. 10. 检查网络连通***
    # ifconfig -a
    en0: flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>
    inet 10.76.16.25 netmask 0xffffff00 broadcast 10.76.16.255
    tcp_sendspace 131072 tcp_recvspace 65536 rfc1323 0
    en2: flags=1e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),LARGESEND,CHAIN>
    inet 10.76.16.24 netmask 0xffffff00 broadcast 10.76.16.255
    tcp_sendspace 131072 tcp_recvspace 65536 rfc1323 0
    lo0: flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT>
    inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255
    inet6 ::1/0
    tcp_sendspace 131072 tcp_recvspace 131072 rfc1323 1
    # netstat -in
    Name Mtu Network Address ZoneID Ipkts Ierrs Opkts Oerrs Coll
    en0 1500 link#2 0.15.17.d3.19.a8 - 57553153 0 50270548 6 0
    en0 1500 10.76.16 10.76.16.25 - 57553153 0 50270548 6 0
    en2 1500 link#3 0.21.5e.b3.e6.20 - 462983882 0 50159523 0 0
    en2 1500 10.76.16 10.76.16.24 - 462983882 0 50159523 0 0
    lo0 16896 link#1 - 6216486 0 6224734 0 0
    lo0 16896 127 127.0.0.1 - 6216486 0 6224734 0 0
    lo0 16896 ::1 1 6216486 0 6224734 0 0
    #

  11. 11. 查看HACMP状态和日志
    /usr/sbin/cluster/diag/clconfig -v '-tr'
    输出判断:
    结果无Fail项输出。

  12. 12. 检查hosts文件是否有特殊定义
    # cat /etc/hosts

  13. 13. 检查系统备份

  14. 14. 磁带机清洁检查
    # /usr/lpp/diagnostics/bin/utape -cd rmt0 -n
    1.316667
    显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。

  15. 15. 查看cluster状态:
    15.1 # l***c -g cluster
    Subsystem Group PID Status
    clstrmgrES cluster 164078 active
    15.2 # /usr/sbin/cluster/clstat
    15.3 # netstat -in (看IP公共是否生效)
    15.4 # ps -ef | grep cluster
    root 286878 200838 0 Sep 19 - 6:45 /usr/es/sbin/cluster/clinfo
    root 311494 200838 0 Sep 19 - 26:02 /usr/es/sbin/cluster/clstrmgr
    root 368846 200838 0 Sep 19 - 11:16 /usr/es/sbin/cluster/clcomd -d
    root 1601538 938202 0 08:44:46 pts/0 0:00 grep cluster
    15.5 # lsvg –o
    此时应可以看到本地的VG及共享VG

  16. 16. 检查自动任务的状态

  17. 17. 检查AIX官方补丁

  18. 关注AIX官方新闻
    18. 检查硬盘IO
    # iostat


    System configuration: lcpu=8 drives=6 paths=6 vdisks=0


    tty: tin tout avg-cpu: % user % sys % idle % iowait
    0.0 3.5 2.5 0.5 96.9 0.2


    Disks: % tm_act Kbps tps Kb_read Kb_wrtn
    hdisk2 0.0 0.1 0.0 12152 167280
    hdisk3 0.0 0.0 0.0 344 24684
    hdisk0 0.0 0.0 0.0 12489 18780
    hdisk1 0.0 0.0 0.0 17 18780
    cd0 0.0 0.0 0.0 0 0
    usbms0 0.0 0.0 0.0 0 0
    #
    19、检查心跳线是否可用:

  19. 二、Oracle数据库日常巡检:

  20. 1. 检查数据库日志
    1.1 警告日志:
    cat /orainst/admin/cba/bdump/alert_cba.log
    1.2 联机(在线)重做日志:
    # cd /orainst/flash_recovery_area/CBA/archivelog
    1.3 归档重做日志:
    ls /orainst/flash_recovery_area/CBA/archivelog/
    1.4 跟踪日志:
    用LogMiner查看。

  21. 2. 查看相关用户的mail
    $ mail

  22. 3. 检查核心转储

  23. 4. 检查所有无效的对象
    select * from dba_objects where status!='VALID'

  24. 5. 检查数据库表空间使用率


  1. 7. 检查备份是否出错

  2. 8. 检查Oracle实例状态
    SQL> select status from v$instance;


    STATUS
    ------------
    OPEN

  3. 9. 检查Oracle数据库状态
    SQL> select open_mode from v$database;

  4. 10. 检查Oracle死锁
    select username,lockwait,status,machine,program from v$session where sid in
    (select session_id from v$locked_object)

  5. 11. 检查缓冲区命中率

  6. 12. 检查共享池命中率

  7. 13. 数据字典命中率

  8. 14. 库缓存命中率

  9. 15. 最浪费内存的前10个语句占全部内存读取量的比例

  10. 16. 检查失效的索引

  11. 17. 检查日志文件、控制文件、参数文件、数据文件、表空间、回滚段等Oracle对象的状态

  12. 18. 检查每一个扩展异常对象状态

  13. 19. 查询等待事件

  14. 20. SQL语句的利用率和效率查询

  15. 21. 实时监控操作系统,发生异常需短信或邮件报警

  16. 22. 检查Oracle数据库的进程

  17. 23. 检查Oracle数据库的监听进程

  18. 24. 检查Oracle的自动负载库报告

  19. 25. 检查Oracle官方补丁

  20. 26. 关注Oracle官方新闻

  21. 27. 检查Oracle的自动诊断报告

  22. 28. 使用LogMiner分析数据库的日志
    29. 查看当前实例SID:
    # echo $ORACLE_SID
    # env
    # set
    30. 定义选择的sid(适用于一个数据库多个实例)
    export ORACLE_SID=orcl
    30. 查看时spfile启动,还是pfile启动:
    SQL> show parameter spfile;
    NAME TYPE VALUE
    ------------------------------------ ----------- ------------------------------
    spfile string /orainst/product/10g/dbs/spfil
    ecba.ora
    如果有值说明使用spfile启动,反之pfile

以上工作尽量做到每日巡检,个别项可以每周巡检。这样可以对数据库系统的安全***和稳定***有一个基本的保障。

select

a.a1 表空间名称,

c.c2 类型,

c.c3 区管理,

b.b2/1024/1024 表空间大小M,

(b.b2-a.a2)/1024/1024 已使用M,

substr((b.b2-a.a2)/b.b2*100,1,5) 利用率

from

(select tablespace_name a1, sum(nvl(bytes,0)) a2 from dba_free_space group by tablespace_name) a,

(select tablespace_name b1,sum(bytes) b2 from dba_data_files group by tablespace_name) b,

(select tablespace_name c1,contents c2,extent_management c3 from dba_tablespaces) c

where a.a1=b.b1 and c.c1=b.b1;


  1. 6. 检查数据库的数据文件是否为自动扩展
    6.1查看所有的表空间以及所对应数据文件名:

select tablespace_name, file_id, file_name,

round(bytes/(1024*1024),0) total_space

from dba_data_files

order by tablespace_name
6.2 查看表空间是否自动扩展:
select tablespace_name,file_name,autoextensible from dba_data_files where tablespace_name = 'CIS_DATA';
select tablespace_name,file_name,autoextensible from dba_data_files where tablespace_name = '2012';

1. 2012

2. CIS_DATA

3. LHCBA_DATA

4. MMDB_DAT1

5. MMDB_LOB1

6. MMDB_NDX1

7. PMDB_DAT1

8. PMDB_LOB1

9. PMDB_NDX1

10. SYSAUX

11. SYSTEM

12. UNDOTBS1

13. USERS