一、起因
每天都会去查看一下自动巡检脚本的输出日志,今天却发现昨天没有生成日志,查看out文件,只输出一半就没了。接着敲了一个命令bdf ,输出几行后挺住了,终端后,查看ogg,发现ogg出现一下问题:
二 解决过程:
通过ogg相关信息,确认归档日志问题,当前系统为hpux,Oracle10g RAC 数据库,在节点2搭建ogg,每个节点归档日志存放于本地,节点1归档日志通过nfs共享到节点2,目前通过bdf命令查看,无法输出通过nfs服务mount的节点1归档日志目录。
试着umount该归档目录
点击( 此处 )折叠或打开
通过fuser命令查看该目录信息,显示节点1 nfs服务没有反应
查看节点1nfs服务状态,并没有发现nfs服务信息
启动节点1 nfs服务
在节点2再次bdf查看,各目录正常。观察ogg状态,通过start ext* 命令启动,发现最后一个还是ABENDED状态
点击( 此处 )折叠或打开
查看后台日志,发现没有发现该归档日志:
通过查看节点2归档目录,发现该归档日志存在该目录下,将其相关1节点归档日志拷贝到响应目录下,再次启动ogg进程
到此,ogg一直处于RUNNING状态,进程开始抽取、投递相关数据。
发生该问题原因主要是由于前天下午节点1实例资源耗尽,实例1数据库停止,也造成nfs服务停止,期间所生成归档日志存放于节点2目录,启动节点1实例后查看数据库、集群服务正常,并未关注到NFS服务,造成今天早上的小惊慌。
三 总结
在日常运维中,我们总是习惯性查看一些东西,就像在本次问题前,一般都会去查看自动巡检脚本日志,如果对日志及日志查看不准备、及时的话很容易漏过一些问题,很幸运归档日志保留3天,而在隔一天的早上笔者发现了问题,如果明天,归档日志删除了,也许造成的影响要大的多。
作为DBA,我们应该时刻保持警惕,有道是”常在河边站哪有不湿鞋“, 希望这次小事故(没有造成更严重的影响,暂且算是小事故)给大家更多提醒,对于hpux nfs 我只能说,你厉害。
文盲筱烨 2015年7月30日 早
每天都会去查看一下自动巡检脚本的输出日志,今天却发现昨天没有生成日志,查看out文件,只输出一半就没了。接着敲了一个命令bdf ,输出几行后挺住了,终端后,查看ogg,发现ogg出现一下问题:
点击(此处)折叠或打开
- GGSCI (xxxxb) 1> info all
-
- Program Status Group Lag at Chkpt Time Since Chkpt
-
- MANAGER RUNNING
- EXTRACT RUNNING DPESA 00:00:00 00:00:07
- EXTRACT RUNNING DPESB 00:00:00 00:00:07
- EXTRACT RUNNING DPESC 00:00:00 00:00:07
- EXTRACT RUNNING EXTSA 00:00:00 38:34:50
- EXTRACT RUNNING EXTSB 00:00:00 37:27:07
- EXTRACT RUNNING EXTSC 00:00:00 38:34:59
通过ogg相关信息,确认归档日志问题,当前系统为hpux,Oracle10g RAC 数据库,在节点2搭建ogg,每个节点归档日志存放于本地,节点1归档日志通过nfs共享到节点2,目前通过bdf命令查看,无法输出通过nfs服务mount的节点1归档日志目录。
试着umount该归档目录
点击( 此处 )折叠或打开
- xxxb:/#umount /oracle/backup/arch1
- nfs umount: nfs_unmount: /oracle/backup/arch1: is busy
- umount: return error 1.
点击(此处)折叠或打开
- xxxxb:/#fuser /oracle/backup/arch1
- /oracle/backup/arch1:
- NFS server xx.xx.xxx.xxx not responding still trying
查看节点1nfs服务状态,并没有发现nfs服务信息
点击(此处)折叠或打开
- xxxa:/#rpcinfo -p
- program vers proto port service
- ............................
-
- 100227 3 udp 2049
- ............................
- ............................
- 100227 2 tcp 2049
- 100227 3 tcp 2049
启动节点1 nfs服务
点击(此处)折叠或打开
- xxxa:/#/sbin/init.d/nfs.server start
- ERROR: rpc.statd not running. Run "/sbin/init.d/lockmgr start" to start rpc.statd, exiting
- xxxa:/#/sbin/init.d/lockmgr start
- Starting up the Status Monitor daemon
- /usr/sbin/rpc.statd
- Starting up the lock manager daemon
- /usr/sbin/rpc.lockd
- xxxa:/#/sbin/init.d/nfs.server start
- Starting NFS SERVER subsystem
-
- Reading in /etc/dfs/dfstab
- Starting up the mount daemon
- /usr/sbin/rpc.mountd
- Starting up the NFS server daemon
- /usr/sbin/nfsd
- Starting up nfsmapid daemon
在节点2再次bdf查看,各目录正常。观察ogg状态,通过start ext* 命令启动,发现最后一个还是ABENDED状态
点击( 此处 )折叠或打开
- GGSCI (xxxxb) 30> info all
-
- Program Status Group Lag at Chkpt Time Since Chkpt
-
- MANAGER RUNNING
- EXTRACT RUNNING DPESA 00:00:00 00:00:04
- EXTRACT RUNNING DPESB 00:00:00 00:00:03
- EXTRACT RUNNING DPESC 00:00:00 00:00:04
- EXTRACT RUNNING EXTSA 39:52:41 00:00:05
- EXTRACT RUNNING EXTSB 40:38:07 00:00:03
- EXTRACT ABENDED EXTSC 00:00:00 38:52:58
查看后台日志,发现没有发现该归档日志:
点击(此处)折叠或打开
- 2015-07-30 08:33:37 ERROR OGG-00446 Oracle GoldenGate Capture for Oracle, extsc.prm: Could not find archived log for sequence 196189 thread 1 under alternative destinations. SQL <SELECT MAX(sequence#) FROM v$log WHERE thread# = :ora_thread>. Last alternative log tried /oracle/backup/arch1/1_196189_691066444.dbf., error retrieving redo file name for sequence 196189, archived = 1, use_alternate = 0Not able to establish initial position for sequence 196189, rba 44734480.
点击(此处)折叠或打开
- GGSCI (xxxxb) 104> info all
-
- Program Status Group Lag at Chkpt Time Since Chkpt
-
- MANAGER RUNNING
- EXTRACT RUNNING DPESA 00:00:00 00:00:03
- EXTRACT RUNNING DPESB 34:49:52 00:00:03
- EXTRACT RUNNING DPESC 00:00:00 00:00:03
- EXTRACT RUNNING EXTSA 00:00:00 00:00:04
- EXTRACT RUNNING EXTSB 34:59:56 00:00:08
- EXTRACT RUNNING EXTSC 40:46:06 00:00:00
到此,ogg一直处于RUNNING状态,进程开始抽取、投递相关数据。
发生该问题原因主要是由于前天下午节点1实例资源耗尽,实例1数据库停止,也造成nfs服务停止,期间所生成归档日志存放于节点2目录,启动节点1实例后查看数据库、集群服务正常,并未关注到NFS服务,造成今天早上的小惊慌。
三 总结
在日常运维中,我们总是习惯性查看一些东西,就像在本次问题前,一般都会去查看自动巡检脚本日志,如果对日志及日志查看不准备、及时的话很容易漏过一些问题,很幸运归档日志保留3天,而在隔一天的早上笔者发现了问题,如果明天,归档日志删除了,也许造成的影响要大的多。
作为DBA,我们应该时刻保持警惕,有道是”常在河边站哪有不湿鞋“, 希望这次小事故(没有造成更严重的影响,暂且算是小事故)给大家更多提醒,对于hpux nfs 我只能说,你厉害。
文盲筱烨 2015年7月30日 早
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29487349/viewspace-1756315/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/29487349/viewspace-1756315/