oracle 性能优化 03_闩锁及33等待事件

最新推荐文章于 2022-07-17 10:21:47 发布

weixin_33950035

最新推荐文章于 2022-07-17 10:21:47 发布

阅读量195

点赞数

文章标签：数据库 python 人工智能

原文链接：https://my.oschina.net/peakfang/blog/2245791

版权

2019独角兽企业重金招聘Python工程师标准>>>

一、闩锁
1、oracle的锁
应用级锁：应用中对表等资源进行锁定，保证业务逻辑正确性，v$lock视图，锁详细见体系结构介绍
数据字典锁：Oracle RDBMS内核程序员使用的用来保证数据字典访问逻辑正确性的锁
内存控制锁：用来保护Oracle内部数据结构的锁（LATCH,MUTEX）
2、内存控制锁
latch
通过简单高效的底层技术，保护oracle内存结构，保证oracle串行的访问核心内存，不使用队列机
制，一个latch可以保护多个内存区域，一个内存区域只能由一个latch保护。latch时间开销包括获取
latch,持有，释放三部分时间，可以通过v$latch,v$latch_children视图或者statpack,AWR报告发现闩
锁等待。
mutex
oracle10g引入，用于保存部分内存结构，比latch保护的粒度更小，开销也小。

二、等待事件：
分为两类，即空闲(IDLE)等待事件和非空闲(NON-IDLE)等待事件。
空闲等待事件指ORACLE正等待某种工作，在诊断和优化数据库的时候，不用过多注意这部分事件。
非空闲等待事件专门针对ORACLE的活动，指数据库任务或应用运行过程中发生的等待，这些等待事件
是调优数据库的时候需要关注与研究的。
在Oracle 10g中的等待事件有872个，11g中等待事件1365个。v$event_name 视图可查看等待事件的相关信息。
查看等待事件分类情况：
SELECT wait_class#,
wait_class_id,
wait_class,
COUNT ( * ) AS "count"
FROM v$event_name
GROUP BY wait_class#, wait_class_id, wait_class;
12类等待事件
IDLE #空闲
APPLICATION #行锁、表锁、DDL锁等
Configuration #由于配置导致的
Administrative #特权用户的某些维护操作导致的
Concurrency #由于并发量大引起的
commit #log file sync
Network
User I/O waits #前台进程，SMON,MMON
System I/O Waits #除了SMON,MMON外的后台进程
Scheduler #资源管理引起的
CLUSTER #RAC
Other
三、33个常见的等待事件
1.Buffer busy waits
发生这个等待事件说明了一个会话在等待一个Buffer（数据块），常见的两种是：本会话要修改的数据块被其他会话
正修改，本会话要读取的数据库被其他会话读入内存。Oracle 操作的最小单位是块（Block），即使你要修改一条记录，
也需要对这条记录所在的这个数据块做操作。当你对这个数据块做修改时会在数据块上加锁，其他的会话将被阻止对这
个数据块上的数据做修改（即使其他用户修改的不是当前用户修改的数据），可以利用CR块实现一致性读。这种加锁的机
制我们叫Latch。
会话修改一个数据块的步骤：以排他的方式获得这个数据块（Latch），修改这个数据块，释放Latch。
Buffer busy waits等待事件常见于数据库中存在的热块，可以在AWR或者statspack 报告中就可以看到。通过SQL语
句查找x$bh视图，找到具体的热块，进行优化处理。

2.Buffer latch
当一个会话需要访问某个数据块时，它首先要搜索记录buffer地址 hash 列表，从列表中获得数据块的地址，然后通
过这个地址去访问需要的数据块，这个列表Oracle会使用一个latch来保护它的完整性。访问这个列表时，需要获取一个
Latch。
产生buffer latch的等待事件的主要原因是：
Buffer chains太长，导致会话搜索这个列表花费的时间太长，使其他的会话处于等待状态；存在热块问题。
_db_block_lru_latches: lru buffer chain的个数
SELECT x.ksppinm NAME, y.ksppstvl VALUE, x.ksppdesc describ
FROM x$ksppi x, x$ksppcv y
WHERE x.inst_id = USERENV ('Instance')
AND y.inst_id = USERENV ('Instance')
AND x.indx = y.indx
AND x.ksppinm LIKE '%_db_block_lru_latches%'

3.Control file parallel write
当数据库中有多个控制文件的拷贝时，Oracle 需要保证信息同步地写到各个控制文件当中，这是一个并行的物理
操作过程，因为称为控制文件并行写，当发生这样的操作时，就会产生control file parallel write等待事件。事件
发生后可以降低控制文件的拷贝数量，将控制文件的拷贝存放在不同的物理磁盘上的方式来缓解I/O 争用。
控制文件频繁写入的原因：日志切换太过频繁，导致控制文件信息相应地需要频繁更新。

4.Control file sequential read
当数据库需要读取控制文件上的信息时，会出现这个等待事件，因为控制文件的信息是顺序写的，所以读取的时
候也是顺序的，因此称为控制文件顺序读，它经常发生在以下情况：备份控制文件，读取控制文件信息，RAC 环境下
不同实例之间控制文件的信息共享。
5.Db file parallel read
这个等待事件和并行操作（比如并行查询，并行DML）没有关系。这个事件发生在数据库恢复的时候，当有一些
数据块需要恢复的时候，Oracle会以并行的方式把他们从数据文件中读入到内存中进行恢复操作。
6.Db file parallel write
这是一个后台等待事件，它同样和用户的并行操作没有关系，它是由后台进程DBWR产生的，当后台进程DBWR想磁
盘上写入脏数据时，会发生这个等待。
DBWR会批量地将脏数据并行地写入到磁盘上相应的数据文件中，在这个批次作业完成之前，DBWR将出现这个等待
事件。如果仅仅是这一个等待事件，对用户的操作并没有太大的影响，当伴随着出现free buffer waits等待事件时，
说明此时内存中可用的空间不足，这时候会影响到用户的操作，比如影响到用户将脏数据块读入到内存中。
7.Db file scattered read
这个等待事件在实际生产库中经常可以看到，这是一个用户操作引起的等待事件，当用户发出每次I/O需要读取
多个数据块这样的SQL 操作时，会产生这个等待事件，最常见的两种情况是全表扫描（FTS： Full Table Scan）和索
引快速扫描（IFFS： index fast full scan）。
当发生这种等待事件时，SQL的操作都是顺序地读取数据块的，比如FTS或者IFFS方式（如果忽略需要读取的数据
块已经存在内存中的情况）。这里的scattered指的是读取的数据块在内存中的存放方式，他们被读取到内存中后，是
以分散的方式存在在内存中，而不是连续的。
8.Db file sequential read
这个等待事件在实际生产库也很常见，当Oracle 需要每次I/O只读取单个数据块这样的操作时，会产生这个等待
事件。最常见的情况有索引的访问（除IFFS外的方式），回滚操作，以ROWID的方式访问表中的数据，重建控制文件，
对文件头做DUMP等。
这里的sequential指的是读取的数据块在内存中是以连续的方式存放的。
9.Db file single write
这个等待事件通常只发生在一种情况下，就是Oracle 更新数据文件头信息时（比如发生Checkpoint）。当这个等
待事件很明显时，需要考虑是不是数据库中的数据文件数量太大，导致Oracle 需要花较长的时间来做所有文件头的更
新操作（checkpoint）。
10.Direct path read
这个等待事件发生在会话将数据块直接读取到PGA当中而不是SGA中的情况，这些被读取的数据通常是这个会话私
有的数据，所以不需要放到SGA作为共享数据，因为这样做没有意义。这些数据通常是来自与临时段上的数据，比如一
个会话中SQL的排序数据，并行执行过程中间产生的数据，以及Hash Join，merge join产生的排序数据，因为这些
数据只对当前的会话的SQL操作有意义，所以不需要放到SGA当中。
当发生direct path read等待事件时，意味着磁盘上有大量的临时数据产生，比如排序，并行执行等操作。或
者意味着PGA中空闲空间不足。
11.Direct path write
这个等待事件和direct path read 正好相反，是会话将一些数据从PGA中直接写入到磁盘文件上，而不经过SGA。
这种情况通常发生在：使用临时表空间排序（内存不足），数据的直接加载（使用append方式加载数据）并行DML操作。
12.Enqueue
Enqueue 这个词其实是lock 的另一种描述语。关联AWR报告中的enqueue activity部分来确定是哪一种锁定出
现了长时间等待。
可以使用如下SQL 查看当前会话等待的enqueue名称和类型：
SELECT CHR (TO_CHAR (BITAND (p1, -16777216)) / 16777215)
|| CHR (TO_CHAR (BITAND (p1, 16711680)) / 65535)
"Lock",
TO_CHAR (BITAND (p1, 65535)) "Mode"
FROM v$session_wait
WHERE event = 'enqueue'
13.Free buffer waits
当一个会话将数据块从磁盘读到内存中时，它需要到内存中找到空闲的内存空间来存放这些数据块，当内存中
没有空闲的空间时，就会产生这个等待；除此之外，还有一种情况就是会话在做一致性读时，需要构造数据块在某
个时刻的前映像（image），此时需要申请内存来存放这些新构造的数据块，如果内存中无法找到这样的内存块，
也会发生这个等待事件。
出现比较严重的free buffer waits等待事件时，可能的原因是：
data buffer 太小，导致空闲空间不够
内存中的脏数据太多，DBWR无法及时将这些脏数据写到磁盘中以释放空间
14.Latch free
在10g之前的版本里，latch free 等待事件代表了所有的latch等待，在10g以后，一些常用的latch事件已经被
独立了出来，所以latch free 等待事件在10g以后的版本中并不常见，而是以具体的Latch 等待事件出现。
select name from v$event_name where name like 'latch%' order by 1;
15.Library cache lock
这个等待时间发生在不同用户在共享中由于并发操作同一个数据库对象导致的资源争用的时候，比如当一个用
户正在对一个表做DDL 操作时，其他的用户如果要访问这张表，就会发生library cachelock等待事件，它要一直
等到DDL操作完成后，才能继续操作。
16.Library cache pin
这个等待事件和library cache lock 一样是发生在共享池中并发操作引起的事件。通常来讲，如果Oracle 要
对一些PL/SQL 或者视图这样的对象做重新编译，需要将这些对象pin到共享池中。如果此时这个对象被其他的用户
特有，就会产生一个library cache pin的等待。
17.Log file parallel write
后台进程LGWR 负责将log buffer当中的数据写到REDO 文件中，以重用log buffer的数据。如果每个REDO LOG
组里面有2个以上的成员，那么LGWR进程会并行地将REDO 信息写入这些文件中。
如果数据库中出现这个等待事件的瓶颈，主要的原因可能是磁盘I/O性能不够或者REDO 文件的分布导致了I/O争
用，比如同一个组的REDO 成员文件放在相同的磁盘上。
18.Log buffer space
当log buffer 中没有可用空间来存放新产生的redo log数据时，就会发生log buffer space等待事件。如果
数据库中新产生的redo log的数量大于LGWR 写入到磁盘中的redo log 数量，必须等待LGWR 完成写入磁盘的操作，
LGWR必须确保redo log写到磁盘成功之后，才能在redo buffer当中重用这部分信息。
19.Log file sequential read
这个等待事件通常发生在对redo log信息进行读取时，比如在线redo 的归档操作，ARCH进程需要读取redo log
的信息，由于redo log的信息是顺序写入的，所以在读取时也是按照顺序的方式来读取的。
20.Log file single write
这个等待事件发生在更新redo log文件的文件头时，当为日志组增加新的日志成员时或者redo log的sequence号
改变时，LGWR 都会更新redo log文件头信息。
21.Log file switch(archiving needed)
在归档模式下，这个等待事件发生在在线日志切换（log file switch）时，需要切换的在线日志还没有被归档进
程（ARCH）归档完毕的时候。当在线日志文件切换到下一个日志时，需要确保下一个日志文件已经被归档进程归档完
毕，否则不允许覆盖那个在线日志信息（否则会导致归档日志信息不完整）。
出现这样的等待事件通常是由于某种原因导致ARCH 进程死掉，如果发生这种情况，在数据库的alert log文件中
可以找到相关的错误信息。
22.Log file switch(checkpoint incomplete)
当一个在线日志切换到下一个在线日志时，必须保证要切换到的在线日志上的记录的信息（比如一些脏数据块产
生的redo log）被写到磁盘上（checkpoint），这样做的原因是，如果一个在线日志文件的信息被覆盖，而依赖这些
redo 信息做恢复的数据块尚未被写到磁盘上（checkpoint），此时系统down掉的话，Oracle将没有办法进行实例恢复。
如果系统中出现大量的log file switch（checkpoint incomplete）等待事件，原因可能是日志文件太小或者日
志组太少，所以解决的方法是，增加日志文件的大小或者增加日志组的数量。
23.Log file sync
这是一个用户会话行为导致的等待事件，当一个会话发出一个commit命令时，LGWR进程会将这个事务产生的
redo log从log buffer里面写到磁盘上，以确保用户提交的信息被安全地记录到数据库中。
会话发出的commit指令后，需要等待LGWR将这个事务产生的redo 成功写入到磁盘之后，才可以继续进行后续的操
作，这个等待事件就叫作log file sync。当系统中出现大量的log file sync等待事件时，应该检查数据库中是否有
用户在做频繁的提交操作。
24.SQL*Net break/reset to client
当出现这个等待事件时，说明服务器端在给客户端发送一个断开连接或者重置连接的请求，正在等待客户的响
应，通常的原因是服务器到客户端的网络不稳定导致的。
25.SQL*Net break/reset to dblink
这个等待事件和SQL*Net break/reset to client 相同。不过它表示的是数据库通过dblink访问另一台数据库
时，他们之间建立起一个会话，这个等待事件发生在这个会话之间的通信过程中，同样如果出现这个等待事件，需
要检查两台数据库之间的通信问题。
26.SQL*Net message from client
这个等待事件基本上是最常见的一个等待事件。当一个会话建立成功后，客户端会向服务器端发送请求，服务器
端处理完客户端请求后，将结果返回给客户端，并继续等待客户端的请求，这时候会产生SQL*Net message from client
等待事件。
这是一个空闲等待，如果客户端不再向服务器端发送请求，服务器端将一直处于这个等待事件状态。
27.SQL*Net message from dblink
这个等待事件和SQL*Net message from client相同，不过它表示的是数据库通过dblink 访问另一个数据库时，
他们之间会建立一个会话，这个等待事件发生在这个会话之间的通信过程中。
这个等待事件也是一个空闲等待事件。
28.SQL*Net message to client
这个等待事件发生在服务器端向客户端发送消息的时候。当服务器端向客户端发送消息产生等待时，可能的
原因是用户端太繁忙，无法及时接收服务器端送来的消息，也可能是网络问题导致消息无法从服务器端发送到客户端。
29.SQL*Net message to dblink
这个等待事件和SQL*Net message to client 相同，不过是发生在数据库服务器和服务器之间的等待事件，
产生这个等待的原因可能是远程服务器繁忙，而无法及时接收发送过来的消息，也可能是服务器之间网络问题导致
消息无法发送过来。
30.SQL*Net more data from client
服务器端等待用户发出更多的数据以便完成操作，比如一个大的SQL文本，导致一个SQL*Net 数据包无法完成
传输，这样服务器端会等待客户端把整个SQL 文本发过来在做处理，这时候就会产生一个SQL*Net more data from client
等待事件。
31.SQL*Net more data from dblink
在一个分布式事务中，SQL 分布在不同的数据库中执行，远程数据库执行完毕后将结果通过dblink返给发出SQL的
数据库，在等待数据从其他数据库中通过dblink传回的过程中，如果数据在远程数据库上处理时间很久，或者有大量
的结果集需要返回，或者网络性能问题都会产生SQL*Net more data from dblink 等待事件，它的意思是本地数据库
需要等到所有的数据从远程处理完毕通过dblink传回后，才可以在本机继续执行操作。
32.SQL*Net more data to client
当服务器端有太多的数据需要发给客户端时，可能会产生SQL*Net more data to client等待事件，也可能由于
网络问题导致服务器无法及时地将信息或者处理结果发送给客户端，同样会产生这个等待。
33. SQL*Net more data to dblink
这个等待事件和SQL*Net more data to client 等待时间基本相同，只不过等待发生在分布式事务中，即本地数
据库需要将更多的数据通过dblink发送给远程数据库。由于发送的数据太多或者网络性能问题，就会出现
SQL*Net more data to dblink等待事件。