【OGG】hpux系统nfs异常造成OGG无法应用归档日志

一、起因
      每天都会去查看一下自动巡检脚本的输出日志,今天却发现昨天没有生成日志,查看out文件,只输出一半就没了。接着敲了一个命令bdf ,输出几行后挺住了,终端后,查看ogg,发现ogg出现一下问题:


点击(此处)折叠或打开

  1. GGSCI (xxxxb) 1> info all

  2. Program Status Group Lag at Chkpt Time Since Chkpt

  3. MANAGER RUNNING
  4. EXTRACT RUNNING DPESA 00:00:00 00:00:07
  5. EXTRACT RUNNING DPESB 00:00:00 00:00:07
  6. EXTRACT RUNNING DPESC 00:00:00 00:00:07
  7. EXTRACT RUNNING EXTSA 00:00:00 38:34:50
  8. EXTRACT RUNNING EXTSB 00:00:00 37:27:07
  9. EXTRACT RUNNING EXTSC 00:00:00 38:34:59
二 解决过程:

   通过ogg相关信息,确认归档日志问题,当前系统为hpux,Oracle10g RAC 数据库,在节点2搭建ogg,每个节点归档日志存放于本地,节点1归档日志通过nfs共享到节点2,目前通过bdf命令查看,无法输出通过nfs服务mount的节点1归档日志目录。

 试着umount该归档目录
点击( 此处 )折叠或打开
  1. xxxb:/#umount /oracle/backup/arch1
  2. nfs umount: nfs_unmount: /oracle/backup/arch1: is busy
  3. umount: return error 1.
通过fuser命令查看该目录信息,显示节点1 nfs服务没有反应

点击(此处)折叠或打开

  1. xxxxb:/#fuser /oracle/backup/arch1
  2. /oracle/backup/arch1:
  3. NFS server xx.xx.xxx.xxx not responding still trying

查看节点1nfs服务状态,并没有发现nfs服务信息

点击(此处)折叠或打开

  1. xxxa:/#rpcinfo -p
  2.    program vers proto port service
  3.     ............................

  4.     100227 3 udp 2049
  5.     ............................
  6.     ............................
  7.     100227 2 tcp 2049
  8.     100227 3 tcp 2049

启动节点1 nfs服务

点击(此处)折叠或打开

  1. xxxa:/#/sbin/init.d/nfs.server start
  2. ERROR: rpc.statd not running. Run "/sbin/init.d/lockmgr start" to start rpc.statd, exiting
  3. xxxa:/#/sbin/init.d/lockmgr start
  4.     Starting up the Status Monitor daemon
  5.         /usr/sbin/rpc.statd
  6.     Starting up the lock manager daemon
  7.         /usr/sbin/rpc.lockd
  8. xxxa:/#/sbin/init.d/nfs.server start
  9.     Starting NFS SERVER subsystem
  10.     
  11.     Reading in /etc/dfs/dfstab
  12.     Starting up the mount daemon
  13.         /usr/sbin/rpc.mountd
  14.     Starting up the NFS server daemon
  15.         /usr/sbin/nfsd
  16.       Starting up nfsmapid daemon

在节点2再次bdf查看,各目录正常。观察ogg状态,通过start ext* 命令启动,发现最后一个还是ABENDED状态


点击( 此处 )折叠或打开
  1. GGSCI (xxxxb) 30> info all

  2. Program Status Group Lag at Chkpt Time Since Chkpt

  3. MANAGER RUNNING
  4. EXTRACT RUNNING DPESA 00:00:00 00:00:04
  5. EXTRACT RUNNING DPESB 00:00:00 00:00:03
  6. EXTRACT RUNNING DPESC 00:00:00 00:00:04
  7. EXTRACT RUNNING EXTSA 39:52:41 00:00:05
  8. EXTRACT RUNNING EXTSB 40:38:07 00:00:03
  9. EXTRACT ABENDED EXTSC 00:00:00 38:52:58

查看后台日志,发现没有发现该归档日志:

点击(此处)折叠或打开

  1. 2015-07-30 08:33:37 ERROR OGG-00446 Oracle GoldenGate Capture for Oracle, extsc.prm: Could not find archived log for sequence 196189 thread 1 under alternative destinations. SQL <SELECT MAX(sequence#) FROM v$log WHERE thread# = :ora_thread>. Last alternative log tried /oracle/backup/arch1/1_196189_691066444.dbf., error retrieving redo file name for sequence 196189, archived = 1, use_alternate = 0Not able to establish initial position for sequence 196189, rba 44734480.
通过查看节点2归档目录,发现该归档日志存在该目录下,将其相关1节点归档日志拷贝到响应目录下,再次启动ogg进程

点击(此处)折叠或打开

  1. GGSCI (xxxxb) 104> info all

  2. Program Status Group Lag at Chkpt Time Since Chkpt

  3. MANAGER RUNNING
  4. EXTRACT RUNNING DPESA 00:00:00 00:00:03
  5. EXTRACT RUNNING DPESB 34:49:52 00:00:03
  6. EXTRACT RUNNING DPESC 00:00:00 00:00:03
  7. EXTRACT RUNNING EXTSA 00:00:00 00:00:04
  8. EXTRACT RUNNING EXTSB 34:59:56 00:00:08
  9. EXTRACT RUNNING EXTSC 40:46:06 00:00:00

到此,ogg一直处于RUNNING状态,进程开始抽取、投递相关数据。
发生该问题原因主要是由于前天下午节点1实例资源耗尽,实例1数据库停止,也造成nfs服务停止,期间所生成归档日志存放于节点2目录,启动节点1实例后查看数据库、集群服务正常,并未关注到NFS服务,造成今天早上的小惊慌。

三  总结

  在日常运维中,我们总是习惯性查看一些东西,就像在本次问题前,一般都会去查看自动巡检脚本日志,如果对日志及日志查看不准备、及时的话很容易漏过一些问题,很幸运归档日志保留3天,而在隔一天的早上笔者发现了问题,如果明天,归档日志删除了,也许造成的影响要大的多。
   作为DBA,我们应该时刻保持警惕,有道是”常在河边站哪有不湿鞋“, 希望这次小事故(没有造成更严重的影响,暂且算是小事故)给大家更多提醒,对于hpux nfs 我只能说,你厉害。

文盲筱烨 2015年7月30日 早





来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29487349/viewspace-1756315/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/29487349/viewspace-1756315/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值