五一假期期间接到运维同学的微信,说应用报错了,跟数据库有关的,发过来截图一看报错的信息是could not get next sequence value。以为是某个sequence达到了最大值,让帮忙查是哪个sequence。

于是查了dba_sequences,没有哪个sequence达到了最大值。

于是看session的信息,查询v$session中的等待事件,发现有大量的等待事件是“latch: undo global data”。从事件名字上来看应该是undo的问题。

查询undo表空间的使用率,果然到了100%。但undo是可以重复使用的,除非有非常大的事务占满了整个undo表空间,undo表空间有460多G,占满的可能性不大。

上网搜了latch: undo global data相关的文章,有一个提到MOS上的一篇文档:"LATCH: UNDO GLOBAL DATA" In The Top Wait Events (文档 ID 1451536.1)

文档中介绍这个等待事件意味着大量的session在试图找到新的undo extent和偷取未过期的undo extents。这个等待和隐含参数_undo_autotune设置为FALSE情况下的UNDO空间不足有关。

当前数据库的_undo_autotune确实为FALSE,而且undo_retention=259