原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则追究版权法律责任。
深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/47720043
【简介】
个人在oracle路上的成长记录,其中以蓝自喻,分享成长中的情感、眼界与技术的变化与成长。敏感信息均以其它形式去掉,不会泄露任何企业机密,纯为技术分享。
创作灵感源于对自己的自省和记录。若能对刚刚起步的库友起到些许的帮助或共鸣,欣慰不已。
欢迎拍砖,如有关技术细节表述有错误之处,请您留言或邮件(hyldba@163.com)指明,不胜感激。
【前言】
这是一部个人记录的成长杂记,既然步入到oracle的这片蓝海,免不了一路的奔波与不断的考验。借由此杂记与库友们分享蓝的成长历程。
不知何时起对蓝有了一种说不出来的痴迷,痴迷其广博,痴迷其深邃,痴迷于近在咫尺却又遥不可及。
而又说不清从何时起,注视于oracle的红色耀眼,照亮出眼前的一道光,未知与迷惑在自己的脚下开始初露些许人生的充实与青春的回馈。
在追逐于DBA梦想的道路上步步前行。
临时救火,两天两夜,在煎熬中积累经验值。
——深蓝
这次是初碰AIX上的WAS集群,开始的时候没有预料到问题的复杂性,而在一步一步的排查错误、解决错误的过程中,包括到最后无计可施时,决定重新部署环境的这个煎熬过程中,让我感受到,一个良性架构在设计之初是何等的重要。
下面记录一下这次排查的经历。
(1)、混乱的布局
收到领导的紧急通知后,联系了驻地的工程师,开始介入本次故障处理。
这次故障背景为:
AIX系统上的WAS集群,在更换两台服务器的IP后,WAS集群节点挂起,无法访问。
WAS的架构设计:
AIX服务器1,上面部署了DM管理节点,四个应用节点;
AIX服务器2,上面部署了三个应用节点;
共同组成一个七节点的WAS集群环境。
当我登陆到操作系统后,已经感觉到了些许的不安,AIX!因为之前都是在LINUX或WINODWS下进行部署、调试、优化。在小型机上,这还是头一次。于是登陆后,首先查看了WAS的安装目录。
发现了不同系统下默认的目录的区别:
WAS安装默认目录:
Win2008:/opt/IBM/WebSphere/
linux:/opt/IBM/WebSphere/
AIX:/usr/IBM/WebSphere/
找到了目录以后,有个疑问突然出现了,这里的架构有些奇怪。就是在根安装目录下,即/usr/IBM/WebSphere/下不只是有一个AppServer/,而是有好几个如下面这样子:
AppServer/ AppServer02/ AppServer03/ AppServer04/
这个时候的反应是似乎这个WAS被安装了四遍。
然后进去每个目录以后,也同样发现了,的确是每个下面都有一套完整的WAS文件,如下这样:
于是开始分别的进入到每个AppServer/profiles/下面,去查看AppSrv01/目录,因为这才是节点信息的存放位置。
同时,通过WAS管理控制台,发现了部分节点的node agent并没有启动。于是到指定的目录下,对其进行手工启动。这里需要再提一下这个WAS的架构设计:
AIX服务器1,上面部署了DM管理节点,四个应用节点;
AIX服务器2,上面部署了三个应用节点;
共同组成一个七节点的WAS集群环境。
发现了一个问题:
对于AIX服务器1上的所有节点node agent后台启动后均启动正常;
对于AIX服务器2上的所有节点node agent后台启动后,进程正常,但是在管理控制台查看却是异常的状态;
于是首先想查看一下日志里有没有有用的信息,但是日志里记录的启动node agent进程是正常的。
关于查看日志的路径:
/opt/IBM/WebSphere/AppServer/profiles/AppSrv01/logs
/opt/IBM/WebSphere/AppServer/profiles/AppSrv01/logs/server1
补充:对于WAS启动的检查顺序正常是这样的:
先看一下node agent状态,再看节点同步的状态,再看server状态(即集群的状态),再看一下IHS状态,再看应用程序启动状态。
补充完毕。
(2)、无法启动的服务
在日志中没有查看到有用的信息,而AIX服务器1是正常的,于是想尝试先只对AIX服务器1进行修复。于是在管理控制台中在节点完成同步后,尝试启动server。这个时候,问题出现了:
即使在node agent、节点同步显示状态正常的AIX服务器1上,server服务竟然是无法启动的。界面卡住了。等待了20分钟后,依然卡在启动提示界面。于是到服务器查看进程启动情况:
ps -ef|grep java |grep -v grep
只是发现了启动的nodeagent,并没有发现server的启动。