蓝的成长记——追逐DBA(18):小机上WAS集群故障,由一次更换IP引起

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则追究版权法律责任。

深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/47720043 

【简介】

        个人在oracle路上的成长记录,其中以蓝自喻,分享成长中的情感、眼界与技术的变化与成长。敏感信息均以其它形式去掉,不会泄露任何企业机密,纯为技术分享。

        创作灵感源于对自己的自省和记录。若能对刚刚起步的库友起到些许的帮助或共鸣,欣慰不已。

        欢迎拍砖,如有关技术细节表述有错误之处,请您留言或邮件(hyldba@163.com)指明,不胜感激。

【前言】

       这是一部个人记录的成长杂记,既然步入到oracle的这片蓝海,免不了一路的奔波与不断的考验。借由此杂记与库友们分享蓝的成长历程。

       不知何时起对蓝有了一种说不出来的痴迷,痴迷其广博,痴迷其深邃,痴迷于近在咫尺却又遥不可及。

       而又说不清从何时起,注视于oracle的红色耀眼,照亮出眼前的一道光,未知与迷惑在自己的脚下开始初露些许人生的充实与青春的回馈。

       在追逐于DBA梦想的道路上步步前行。

 

 

 

    临时救火,两天两夜,在煎熬中积累经验值。

                                        ——深蓝

 

    这次是初碰AIX上的WAS集群,开始的时候没有预料到问题的复杂性,而在一步一步的排查错误、解决错误的过程中,包括到最后无计可施时,决定重新部署环境的这个煎熬过程中,让我感受到,一个良性架构在设计之初是何等的重要。

下面记录一下这次排查的经历。

(1)、混乱的布局

    收到领导的紧急通知后,联系了驻地的工程师,开始介入本次故障处理。

这次故障背景为:

    AIX系统上的WAS集群,在更换两台服务器的IP后,WAS集群节点挂起,无法访问。

 

WAS的架构设计:

    AIX服务器1,上面部署了DM管理节点,四个应用节点;

    AIX服务器2,上面部署了三个应用节点;

    共同组成一个七节点的WAS集群环境。

 

    当我登陆到操作系统后,已经感觉到了些许的不安,AIX!因为之前都是在LINUX或WINODWS下进行部署、调试、优化。在小型机上,这还是头一次。于是登陆后,首先查看了WAS的安装目录。

    发现了不同系统下默认的目录的区别:

WAS安装默认目录:

Win2008:/opt/IBM/WebSphere/

linux:/opt/IBM/WebSphere/

AIX:/usr/IBM/WebSphere/

    找到了目录以后,有个疑问突然出现了,这里的架构有些奇怪。就是在根安装目录下,即/usr/IBM/WebSphere/下不只是有一个AppServer/,而是有好几个如下面这样子:

AppServer/ AppServer02/ AppServer03/ AppServer04/

    这个时候的反应是似乎这个WAS被安装了四遍。

然后进去每个目录以后,也同样发现了,的确是每个下面都有一套完整的WAS文件,如下这样:

    于是开始分别的进入到每个AppServer/profiles/下面,去查看AppSrv01/目录,因为这才是节点信息的存放位置。

同时,通过WAS管理控制台,发现了部分节点的node agent并没有启动。于是到指定的目录下,对其进行手工启动。这里需要再提一下这个WAS的架构设计:

    AIX服务器1,上面部署了DM管理节点,四个应用节点;

    AIX服务器2,上面部署了三个应用节点;

    共同组成一个七节点的WAS集群环境。

发现了一个问题:

    对于AIX服务器1上的所有节点node agent后台启动后均启动正常;

    对于AIX服务器2上的所有节点node agent后台启动后,进程正常,但是在管理控制台查看却是异常的状态;

    于是首先想查看一下日志里有没有有用的信息,但是日志里记录的启动node agent进程是正常的。

 

关于查看日志的路径:

/opt/IBM/WebSphere/AppServer/profiles/AppSrv01/logs

/opt/IBM/WebSphere/AppServer/profiles/AppSrv01/logs/server1

 

补充:对于WAS启动的检查顺序正常是这样的:

先看一下node agent状态,再看节点同步的状态,再看server状态(即集群的状态),再看一下IHS状态,再看应用程序启动状态。

补充完毕。

(2)、无法启动的服务

    在日志中没有查看到有用的信息,而AIX服务器1是正常的,于是想尝试先只对AIX服务器1进行修复。于是在管理控制台中在节点完成同步后,尝试启动server。这个时候,问题出现了:

    即使在node agent、节点同步显示状态正常的AIX服务器1上,server服务竟然是无法启动的。界面卡住了。等待了20分钟后,依然卡在启动提示界面。于是到服务器查看进程启动情况:

ps -ef|grep java |grep -v grep

    只是发现了启动的nodeagent,并没有发现server的启动。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值