笔者所在公司最近上了一套系统,系统使用中间件连接Oracle数据库,使用一段时间之后系统就会停止响应。发现问题在于2点:
1.中间件有线程执行了Delete语句之后,一直处于等待状态,没有COMMIT提交事务,对表施加了行锁且该线程无法复用(中间件总线程数有限制)
2.对表施加了行锁之后,后续中间件线程如果需要修改该行,将被阻塞。
以上两个因素不断发生,最终导致中间件线程数耗尽,系统停止响应。
下面会分两个部分,第一个部分是直接给出判断以上故障的SQL语句,第二部分是通过做实验的方法重现问题
1.直接判断未提交事务引起的表的行锁
1.1 判断哪个SESSION执行了DML(Insert/Update/Delete) 但是未提交 (Commit ),引起的行锁
--找到修改了数据,但是未提交的Session,选择WAIT_CLASS='Idle',也就是Session处于休息状态,但是有锁定的表
SELECT A.SID,
A.SERIAL#,
A.USERNAME,
A.EVENT,
A.WAIT_CLASS,
A.SECONDS_IN_WAIT,
A.PREV_EXEC_START,
B.LOCKED_MODE,
C.OWNER,
C.OBJECT_NAME,
C.OBJECT_TYPE
FROM V$SESSION A
INNER JOIN V$LOCKED_OBJECT B ON A.SID = B.SESSION_ID
INNER JOIN DBA_OBJECTS C ON B.OBJECT_ID = C.OBJECT_ID
WHERE A.WAIT_CLASS = 'Idle'
AND A.SECONDS_IN_WAIT > 10--/*SESSION空闲后一段时间还锁定的才算有问题,这里随便给了个数值10秒*/
如果确认这些SESSION确实有问题,可以直接KILL掉,传入前面语句的SID和SERIAL#
ALTER SYSTEM KILL SESSION 'SID,SERIAL#'
注:ORACLE有个很有趣的地方,就是KILL SESSION的时候需要填“”SERIAL#“,是为了避免刚刚查询的时候获得了一个SID,然后你打算杀掉他,在这个时间之间,打算杀掉的SESSION结束了断开连接,然后新的SESSION复用了这个SID,也就是避免误杀,SQL SERVER 直接KILL可以了。
1.2 判断哪些SESSION被阻塞了,且定位到是谁阻塞了,是由于哪个表哪个行引起的阻塞
--当SESSION被阻塞,通过ROW_WAIT_OBJ#,ROW_WAIT_FILE#,ROW_WAIT_BLOCK#,ROW_WAIT_ROW#这几个字段找到ROWID,然后通过ROWID找到被锁定的记录
SELECT BLOCKING_SESSION,
SID,
SERIAL#,
AUDSID,
PADDR,
USER#,
USERNAME,
EVENT,
WAIT_CLASS,
SECONDS_IN_WAIT,
ROW_WAIT_OBJ#,
ROW_WAIT_FILE#,
ROW_WAIT_BLOCK#,
ROW_WAIT_ROW#,
BLOCKING_SESSION_STATUS,
BLOCKING_INSTANCE,
C.OWNER,
C.OBJECT_NAME,
C.OBJECT_TYPE,
dbms_rowid.rowid_create(1,
ROW_WAIT_OBJ#,
ROW_WAIT_FILE#,
ROW_WAIT_BLOCK#,
ROW_WAIT_ROW#)
FROM V$SESSION A
INNER JOIN V$LOCKED_OBJECT B ON A.SID = B.SESSION_ID
INNER JOIN DBA_OBJECTS C ON B.OBJECT_ID = C.OBJECT_ID
WHERE BLOCKING_SESSION IS NOT NULL;
通过上面返回的OBJECT_NAME 和ROWID,知道是由于那个行引起的阻塞。
SELECT * FROM 前面返回的表名称
where ROWID=前面返回的ROWID
例:
SQL> select * from test.TESTLOCK where rowid='AAASbJAAEAAAACvAAB';
ID NAME
---------- --------------------------------------------------------------------------------
2 kkkkkkkkkkkkkk
1.3 哪些session阻碍了,哪些被阻碍了以及执行的Sql语句
SELECT s.BLOCKING_SESSION,
l.session_id sid,
s.serial#,
l.locked_mode,
l.oracle_username,
s.user#,
l.os_user_name,
s.machine,
s.terminal,
a.sql_text,
a.action
FROM v$sqlarea a, v$session s, v$locked_object l
WHERE l.session_id = s.sid
AND s.prev_sql_addr = a.address
ORDER BY sid, s.serial#;
1.4 查询哪张表被锁定 被谁锁定
select s.sid,
s.serial#,
lo.oracle_username,
lo.os_user_name,
ao.object_name as 被锁表名称table_locked_name,
s.username,
s.schemaname,
s.osuser,
s.process,
s.machine,
s.terminal,
lo.locked_mode
from v$locked_object lo, all_objects ao, v$session s
where ao.object_id = lo.object_id
and lo.session_id = s.sid
order by s.sid asc;
2.通过实验过程重现整个过程
首先说明,Oracle数据库是写阻塞写,读写之间是互相不阻塞的,也就是以下两个语句在不同的窗口(SESSION)执行的话,由于它们都是更新同一行,如果第一个执行的没有COMMIT,后执行那个会一直处于被阻塞状态:
--第一个窗口执行如下语句
UPDATE TESTLOCK
SET AAA=11
WHERE AAA=1
--第二个窗口执行以下语句
UPDATE TESTLOCK
SET AAA=12
WHERE AAA=1
下面开始我们的实验,Oracle的版本是11G, 带着如下问题:
1)如何知道一个连接修改了数据,但是未提交,导致对表产生了锁定?
2)对于1的疑问,可否知道具体锁定了哪个表的哪个记录?
首先我们在PS/SQL客户端建立三个窗口,分别为:测试窗口1、测试窗口2、观察窗口,实验以“TEST”账号登录,为了避免其他SESSION干扰我们的实验,很多语句添加了“WHERE USERNAME=‘TEST’“作为限定,如果想重复实验过程,需要修改这部分语句。
2.1 在测试窗口1建立测试用的表,并插入10条记录
/*初始化测试表*/
--建立一个测试表
create table TESTLOCK
(
aaa number not null,
bbb nvarchar2(10) not null,
ccc nvarchar2(10) not null
);
create INDEX PK_TESTLOCK on TESTLOCK (aaa);
--随便插入点数据
INSERT INTO TESTLOCK VALUES ('1','BBB','CCC');
INSERT INTO TESTLOCK VALUES ('2','BBB','CCC');
INSERT INTO TESTLOCK VALUES ('3','BBB','CCC');
INSERT INTO TESTLOCK VALUES ('4','BBB','CCC');
INSERT INTO TESTLOCK VALUES ('5','BBB','CCC');
INSERT INTO TESTLOCK VALUES ('6','BBB','CCC');
INSERT INTO TESTLOCK VALUES ('7','BBB','CCC');
INSERT INTO TESTLOCK VALUES ('8','BBB','CCC');
INSERT INTO TESTLOCK VALUES ('9','BBB','CCC');
INSERT INTO TESTLOCK VALUES ('10','BBB','CCC');
--然后我们的表里面就有了一些数据
SELECT * FROM TESTLOCK;
COMMIT;
2.2 在测试窗口2,查询测试表 ,可以看到步骤1添加的10条记录
SELECT * FROM TESTLOCK;
2.3 在观察窗口观察当前Session的情况和表锁的情况
这里我们用到了Oracle的三个系统试图:
V$SESSION , V$LOCK , V$LOCKED_OBJECT
--当前的Session情况
SELECT SID,SERIAL#,AUDSID,PADDR,USER#,USERNAME,EVENT,WAIT_CLASS,SECONDS_IN_WAIT,ROW_WAIT_OBJ#,ROW_WAIT_FILE#,ROW_WAIT_BLOCK#,ROW_WAIT_ROW#, BLOCKING_SESSION_STATUS,BLOCKING_INSTANCE,BLOCKING_SESSION
FROM V$SESSION
WHERE USERNAME='TEST';
--当前TESTLOCK表锁的情况
SELECT * FROM V$LOCK
WHERE TYPE='TM'
AND ID1=(SELECT OBJECT_ID FROM DBA_OBJECTS
WHERE OBJECT_NAME='TESTLOCK');
SELECT XIDUSN,XIDSLOT,XIDSQN,OBJECT_ID,SESSION_ID,ORACLE_USERNAME,PROCESS,LOCKED_MODE
FROM V$LOCKED_OBJECT
WHERE OBJECT_ID=(SELECT OBJECT_ID FROM DBA_OBJECTS
WHERE OBJECT_NAME='TESTLOCK');
从下图可以看出TEST账号一共产生了4个SESSION,分别是PLSQL本身连接到数据库和我们建立的三个窗口 :
我们关注几个字段:
EVENT:oracle的session正在等待的数据或者事件
WAIT_CLASS:等待事件的名称
blocking_session_status:如果blocking_session_status字段是VALID,表示该SESSION被阻塞了
blocking_session:被哪个Session阻塞
通过以上4项观察,没有任何Session被阻塞,当前三个Session处于等待客户端消息状态(EVENT=SQLNet message from client, WAIT_CLASS=Idle),剩下一个Session正在向客户端发送消息(EVENT=SQLNet message to client,WAIT_CLASS=Network),就是我们当前的观察窗口
后面两个查询V$LOCK和V$LOCKED_OBJECT的语句没有任何返回,表示当前TESTLOCK表没有被锁定
2.4 在测试窗口1更新表TESTLOCK,但是不要提交(Commit)
UPDATE TESTLOCK
SET AAA=11
WHERE AAA=1
PL/SQL左上角会展示提交和回滚的图标,表示事务没有提交
2.5 再次在观察窗口执行步骤3的语句:
通过对V$LOCK和V$LOCKED_OBJECT的查询可以知道,SID=1947 锁定了TESTLOCK表,其中LMODE=3(行级排他锁,我们这里是通过UPDATE产生的)
锁模式 | 锁描述 | 解释 | SQL操作 |
---|---|---|---|
0 | none | 已请求锁,但未获得 | |
1 | NULL | 空 | Select |
2 | SS(Row-S) | 行级共享锁,其他对象只能查询这些数据行 | Select for update Lock for update Lock row share |
3 | SX(Row-X) | 行级排他锁,在提交前不允许做DML操作 | Insert/Update/Delete Lock row share |
4 | S(Share) | 共享锁 | Create index Lock share |
5 | SSX(S/Row-X) | 共享行级排他锁 | Lock share row exclusive |
6 | X(Exclusive) | 排他锁 | Alter table Drop table Drop index Truncate table Lock exclusive |
2.6 回到之前的第一个问题,如何知道一个SESSION修改了数据但是没COMMIT,在观察窗口执行如下语句:
--找到修改了数据,但是未提交的Session,选择WAIT_CALSS='Idle',也就是Session处于休息状态,但是有锁定的表
SELECT A.SID,A.SERIAL#,A.USERNAME,A.EVENT,A.WAIT_CLASS,A.SECONDS_IN_WAIT,A.PREV_EXEC_START,b.LOCKED_MODE,C.OWNER,C.OBJECT_NAME,C.OBJECT_TYPE
FROM V$SESSION A
INNER JOIN V$LOCKED_OBJECT B
ON A.SID=b.SESSION_ID
INNER JOIN DBA_OBJECTS C
ON B.OBJECT_ID=c.OBJECT_ID
WHERE A.WAIT_CLASS='Idle'
AND A.SECONDS_IN_WAIT>10/*SESSION空闲后一段时间还锁定的才算有问题,这里随便给了个数值10秒*/
AND USERNAME='TEST';
只需要判断WAIT_CLASS=‘Idle’,同时在V$LOCKED_OBJECT存在锁定的对象且SESSION空闲了一段时间,如图,就可以判断SID=1947 锁定了TESTLOCK表,SECONDS_IN_WAIT就可以认为是锁定的时长,单位是秒
2.7 在观察窗口执行以下语句,从事务的角度观察
--从事务角度观察,连接v$session和v$transaction
SELECT A.SID,A.SERIAL#,A.USERNAME,A.EVENT,A.WAIT_CLASS,A.SECONDS_IN_WAIT,A.PREV_EXEC_START,b.START_DATE
FROM v$session a
INNER JOIN v$transaction b
ON a.taddr=b.addr
WHERE USERNAME='TEST'
连接两个视图后,可以知道SID=1947启动了事务
2.8 接下来我们来验证在测试窗口2更新和删除记录,但是更新和删除的记录和测试窗口1的不是同一条记录,测试窗口1更新的记录为AAA=1,在更新和删除后马上提交(COMMIT)
--更新和测试窗口1不同的记录
UPDATE TESTLOCK
SET AAA=100
WHERE AAA=2;
COMMIT ;
--删除和测试窗口1不同的记录
DELETE FROM TESTLOCK
WHERE AAA=3;
COMMIT;
SELECT * FROM TESTLOCK;
可以看到更新和删除都没有被阻塞,查询表结果如图,可以看到AAA=2的数据被更新了,AAA=3的数据被删除,AAA=1的数据还是和原来一样,即看不到测试窗口1的数据更新,也就是凡是没有提交的数据都是看不到的。
2.9 下面来验证:在前面一个UPDATE没有提交的情况下,另外一个连接修改TESTLOCK的同一条记录,会发生什么?
在测试窗口2执行以下语句:但是不要提交(COMMIT)
--更新和测窗口1相同的记录
UPDATE TESTLOCK
SET AAA=12
WHERE AAA=1
该语句会一直处于“正在执行”状态,实际上就是TESTLOCK上面有行锁,该SESSION一直在等待之前的行锁释放
2.10 再次在观察窗口执行步骤3的语句:
观察SID=9,显示EVENT=‘enq: TX - row lock contention’ ,表示正在等待一个行锁释放,BLOCKING_SESSION 说明该SESSION被SID=1947 阻塞了,也就是测试窗口1的SESSION
观察V$LOCK其实区分不了哪个LOCK是没提交,哪个是被阻塞,两个LOCK的显示都是一样的
观察V$LOCKED_OBJECT,可以通过XINUSN/XIDSLOT/XIDSQN 判断,这三个字段是和回滚相关的字段,如果都为0,可以判断为被阻塞
2.11 寻找被锁定的具体行
在观察窗口执行如下语句:
--当SESSION被阻塞,通过ROW_WAIT_OBJ#,ROW_WAIT_FILE#,ROW_WAIT_BLOCK#,ROW_WAIT_ROW#这几个字段找到ROWID,然后通过ROWID找到被锁定的记录
SELECT SID,SERIAL#,AUDSID,PADDR,USER#,USERNAME,EVENT,WAIT_CLASS,SECONDS_IN_WAIT,ROW_WAIT_OBJ#,ROW_WAIT_FILE#,ROW_WAIT_BLOCK#,ROW_WAIT_ROW#,
BLOCKING_SESSION_STATUS,BLOCKING_INSTANCE,BLOCKING_SESSION,C.OWNER,C.OBJECT_NAME,C.OBJECT_TYPE
,dbms_rowid.rowid_create(1,ROW_WAIT_OBJ#,ROW_WAIT_FILE#,ROW_WAIT_BLOCK#,ROW_WAIT_ROW#)
FROM V$SESSION A
INNER JOIN V$LOCKED_OBJECT B
ON A.SID=b.SESSION_ID
INNER JOIN DBA_OBJECTS C
ON B.OBJECT_ID=c.OBJECT_ID
WHERE USERNAME='TEST'
AND BLOCKING_SESSION IS NOT NULL ;
获得具体被阻塞表的ROWID,语句是dbms_rowid.rowid_create(1,ROW_WAIT_OBJ#,ROW_WAIT_FILE#,ROW_WAIT_BLOCK#,ROW_WAIT_ROW#)
查询获得具体的被阻塞记录,正好是我们在测试窗口1 Update的记录
--通过前面的函数rowid_create获得具体的ROWID,然后在锁定表中查询记录
SELECT * FROM TESTLOCK
where ROWID='AAJ2QDAAnAAGrwnAAA'
2.12 杀死阻塞了其他连接的SESSION
从前面可见是SESSION 1947 阻塞了当前线程,查询获得SID=1947,查询其SERIAL#,然后执行SQL杀死该SESSION
ALTER SYSTEM KILL SESSION '1947,63353'
2.13 再次观察当前SESSION情况,SID=9,不再是阻塞状态
SELECT SID,SERIAL#,AUDSID,PADDR,USER#,USERNAME,EVENT,WAIT_CLASS,SECONDS_IN_WAIT,ROW_WAIT_OBJ#,ROW_WAIT_FILE#,ROW_WAIT_BLOCK#,ROW_WAIT_ROW#,
BLOCKING_SESSION_STATUS,BLOCKING_INSTANCE,BLOCKING_SESSION
FROM V$SESSION
WHERE USERNAME='TEST';
V$SESSION的字段解释可参见:
https://docs.oracle.com/cd/E18283_01/server.112/e17110/dynviews_3016.htm
相关文章:
一文搞懂Oracle 0 至 6 级锁(附案例详解)
Oracle 锁(lock)详解
Oracle运维之lock