使用OCP重启OBServer时,可以看到卡在Wait observer active这一步已经快半个小时了,另外start observer process这一步明明没有启动observer,但是还是成功了,比较值得深思它是如何判断的。
执行到30分钟最终因为超时报错了。
可以看到并没有启动成功:
为了诊断问题,登录这个服务器上查看observer的日志,本次查看日志做了格式化处理,先略去一些信息,只显示时间和报错等关键信息。
将报错拿到notepad++上搜ret关键词,可以看到有ret=-5019、ret=-5157和ret=-4016三种报错码,这个还相对友好,如果日志再多的话估计看的头疼。
搜ret=-5019可以看到知识库有一篇文章
打开看下影响的是2的版本,于是继续查。
查看ret=-5157,发现两篇文章跟本次遇到的问题八竿子打不着。
最后只能寄希望于最后一个报错码了。
查看到知识库里一篇比较相似的文章,下面附上文章网址
可以看出文章是以offset是否为0 提供不同的解决方案的,此时去搜下offset是否为0,看到以下截图中offset并不为0,但是此时的输出跟文章上的有点不一样。
尝试使用文章的解决方法,先去看clog_shm 与 ilog_shm的情况,可以看到并没有clog_shm 与 ilog_shm。
然后查看两个节点的clog发现差距有点大
此时删除ilog后,重新执行启动observer的任务,发现启动成功