【OGG】hpux系统nfs异常造成OGG无法应用归档日志

最新推荐文章于 2023-03-16 20:01:49 发布

crygaj7140

最新推荐文章于 2023-03-16 20:01:49 发布

阅读量288

点赞数

一、起因
每天都会去查看一下自动巡检脚本的输出日志，今天却发现昨天没有生成日志，查看out文件，只输出一半就没了。接着敲了一个命令bdf ，输出几行后挺住了，终端后，查看ogg，发现ogg出现一下问题：

点击(此处)折叠或打开

GGSCI (xxxxb) 1> info all
Program Status Group Lag at Chkpt Time Since Chkpt
MANAGER RUNNING
EXTRACT RUNNING DPESA 00:00:00 00:00:07
EXTRACT RUNNING DPESB 00:00:00 00:00:07
EXTRACT RUNNING DPESC 00:00:00 00:00:07
EXTRACT RUNNING EXTSA 00:00:00 38:34:50
EXTRACT RUNNING EXTSB 00:00:00 37:27:07
EXTRACT RUNNING EXTSC 00:00:00 38:34:59

二解决过程：

通过ogg相关信息，确认归档日志问题，当前系统为hpux，Oracle10g RAC 数据库，在节点2搭建ogg，每个节点归档日志存放于本地，节点1归档日志通过nfs共享到节点2，目前通过bdf命令查看，无法输出通过nfs服务mount的节点1归档日志目录。

试着umount该归档目录
点击( 此处 )折叠或打开

xxxb:/#umount /oracle/backup/arch1
nfs umount: nfs_unmount: /oracle/backup/arch1: is busy
umount: return error 1.

通过fuser命令查看该目录信息，显示节点1 nfs服务没有反应

点击(此处)折叠或打开

xxxxb:/#fuser /oracle/backup/arch1
/oracle/backup/arch1:
NFS server xx.xx.xxx.xxx not responding still trying

查看节点1nfs服务状态,并没有发现nfs服务信息

点击(此处)折叠或打开

xxxa:/#rpcinfo -p
program vers proto port service
............................
100227 3 udp 2049
............................
............................
100227 2 tcp 2049
100227 3 tcp 2049

启动节点1 nfs服务

点击(此处)折叠或打开

xxxa:/#/sbin/init.d/nfs.server start
ERROR: rpc.statd not running. Run "/sbin/init.d/lockmgr start" to start rpc.statd, exiting
xxxa:/#/sbin/init.d/lockmgr start
Starting up the Status Monitor daemon
/usr/sbin/rpc.statd
Starting up the lock manager daemon
/usr/sbin/rpc.lockd
xxxa:/#/sbin/init.d/nfs.server start
Starting NFS SERVER subsystem
Reading in /etc/dfs/dfstab
Starting up the mount daemon
/usr/sbin/rpc.mountd
Starting up the NFS server daemon
/usr/sbin/nfsd
Starting up nfsmapid daemon

在节点2再次bdf查看，各目录正常。观察ogg状态，通过start ext* 命令启动，发现最后一个还是ABENDED状态

点击( 此处 )折叠或打开

GGSCI (xxxxb) 30> info all
Program Status Group Lag at Chkpt Time Since Chkpt
MANAGER RUNNING
EXTRACT RUNNING DPESA 00:00:00 00:00:04
EXTRACT RUNNING DPESB 00:00:00 00:00:03
EXTRACT RUNNING DPESC 00:00:00 00:00:04
EXTRACT RUNNING EXTSA 39:52:41 00:00:05
EXTRACT RUNNING EXTSB 40:38:07 00:00:03
EXTRACT ABENDED EXTSC 00:00:00 38:52:58

查看后台日志，发现没有发现该归档日志：

点击(此处)折叠或打开

2015-07-30 08:33:37 ERROR OGG-00446 Oracle GoldenGate Capture for Oracle, extsc.prm: Could not find archived log for sequence 196189 thread 1 under alternative destinations. SQL <SELECT MAX(sequence#) FROM v$log WHERE thread# = :ora_thread>. Last alternative log tried /oracle/backup/arch1/1_196189_691066444.dbf., error retrieving redo file name for sequence 196189, archived = 1, use_alternate = 0Not able to establish initial position for sequence 196189, rba 44734480.

通过查看节点2归档目录，发现该归档日志存在该目录下，将其相关1节点归档日志拷贝到响应目录下，再次启动ogg进程

点击(此处)折叠或打开

GGSCI (xxxxb) 104> info all
Program Status Group Lag at Chkpt Time Since Chkpt
MANAGER RUNNING
EXTRACT RUNNING DPESA 00:00:00 00:00:03
EXTRACT RUNNING DPESB 34:49:52 00:00:03
EXTRACT RUNNING DPESC 00:00:00 00:00:03
EXTRACT RUNNING EXTSA 00:00:00 00:00:04
EXTRACT RUNNING EXTSB 34:59:56 00:00:08
EXTRACT RUNNING EXTSC 40:46:06 00:00:00

到此，ogg一直处于RUNNING状态，进程开始抽取、投递相关数据。
发生该问题原因主要是由于前天下午节点1实例资源耗尽，实例1数据库停止，也造成nfs服务停止，期间所生成归档日志存放于节点2目录，启动节点1实例后查看数据库、集群服务正常，并未关注到NFS服务，造成今天早上的小惊慌。

三总结

在日常运维中，我们总是习惯性查看一些东西，就像在本次问题前，一般都会去查看自动巡检脚本日志，如果对日志及日志查看不准备、及时的话很容易漏过一些问题，很幸运归档日志保留3天，而在隔一天的早上笔者发现了问题，如果明天，归档日志删除了，也许造成的影响要大的多。
作为DBA，我们应该时刻保持警惕，有道是”常在河边站哪有不湿鞋“，希望这次小事故（没有造成更严重的影响，暂且算是小事故）给大家更多提醒，对于hpux nfs 我只能说，你厉害。

文盲筱烨 2015年7月30日早

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/29487349/viewspace-1756315/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/29487349/viewspace-1756315/