连铸服务器异常,是因为该服务器的的节点出错(RAC下面介绍)
,节点出错主要为2个
方面1;为裂脑现象
2节点失去半数以上
vote disk
连接导致节点出错;
1脑裂原因:
服务器无法连接,
ORA
报警:
SELECT A.OWNER,
A.OBJECT_NAME,
B.SESSION_ID,
B.ORACLE_USERNAME,
B.OS_USER_NAME,
B.PROCESS,
B.LOCKED_MODE,
C.SID,
C.SERIAL#,
C.PROGRAM
FROM ALL_OBJECTS A,
V$LOCKED_OBJECT B,
SYS.GV_$SESSION C
WHERE ( A.OBJECT_ID = B.OBJECT_ID )
AND (B.PROCESS = C.PROCESS )
AND A.OBJECT_NAME='TAB_NAME';
然后杀掉这个线程。
alter system kill session 'sid,serial#' immediate;
该问题主要由另一个
ORA-03135
引起
,
主要原因为最近局里网络不稳定
,
如集群中任一主机
PUBLIC
端口断掉会导致与之绑定的
VIP
消失
,
造成假
DOWN
情况称为裂脑
;
裂脑现象
:
.
是由于集群中的节点之间无法正常通讯而导致的集群中出现的不一致的现
象
如果出现这种情况,
Oracle
RAC
会终止一个节点,来保证集群的一致性.裂脑产生后终止
实例原则是根据裂脑现象残生的子集群进行投票选择终止的节点,投票规则节点数少终止,
一致时
node ID
小的节点存活.
节点:
(
real
application
clusters
简称RAC)简单说就是ORA提供一个简单应用平台(B
BS性质一样吧)
,支持所有类型的应用系统,无论是事务处理型应用还是分析型应用。所
有应用共享同样的服务器和存储资源。出现任何的服务器
或磁盘故障,系统会自动重新接
管发生故障的功能。
集群:
集群是一些相互独立的计算机,
这些计算机作为一个整体对外提供服务.
连铸为列.
D
B1和DB2和磁盘阵列构成集群(通过软件)
,想APP提供数据服务.
上诉可以看出裂脑现象可以导致服务起崩溃(线程被杀)
,导致裂脑主要是多个节点数
据不同步,上诉网络不稳定为一个原因.
还有节点的
buffer cache
不一致,当需要CACHE同步操作时会出现裂脑现象,同时
服务器无法启动,现象:双节点