前几天有网友在墨天轮平台上问到“如何写一个定时任务监控用户会话连接数”的问题,由于当时比较忙,回答的比较简单也比较匆忙。最近也因为公司新项目老是加班,运维保障,安装 RAC、搭建 DG 、故障处理等等,占据了很大个人时间,休息充电的时间难免减少了很多,今日利用闲暇时间,来继续说一说监控会话相关的这个话题。
通常我们平时都是通过运行 SQL 语句直接查询 V$SESSION 视图得到结果,然后直接输出到屏幕上,具体的 SQL 如下:
--- 查看用户会话
select username,count(username) from gv$session
where username is not null group by username order by 2;
--- 查看异常等待事件
select inst_id,sid,serial#,program,sql_id,event,seconds_in_wait "wait(s)" from gv$session
where type<>'BACKGROUND' and wait_class <> 'Idle' order by inst_id;
--- 查看活跃会话数
select inst_id,status,count(*) from gv$session
where type<> 'BACKGROUND' group by inst_id,status order by 3;
今天主要是通过 Shell 循环等手段来实现:
[oracle@JiekeXu ~]$ more wait_event.sh
while true
do
DATE=`date +%Y-%m-%d`
sqlplus "/ as sysdba" << EOF | grep -A5 EVENT | grep -v Version | grep -v Copyright | grep -v Enterprise | grep -v '>'
#sqlplus "/ as sysdba" 1>>/home/oracle/wait_history_$DATE.log 2>&1 << EOF |grep -v SQL | grep -v Version | grep -v Copyright | grep -v Enterprise | grep -v '>'
set termout off
set linesize 250 pagesize 100
col inst_id for 9
col sid for 9999
col serial# for 99999
column program format a30
column event format a35
col "wait(s)" for 9999
--set timing on
select inst_id ,sid,serial#,program,sql_id,event,seconds_in_wait "wait(s)" from gv\$session
where type<>'BACKGROUND' and wait_class <> 'Idle' order by inst_id;
exit
EOF
sleep 5
done
注:gv$session 中需要用 “\” 转义 “$” 符号,grep -A5 EVENT 这个只是过滤掉 SQLPlus 登陆退出的提示,以便更友好的输出结果。 每隔 5 秒运行此脚本,便可以输出异常的等待事件到屏幕上,通过 While True 循环然后等待 5 s 继续执行达到监控效果,如下是我的测试环境执行结果:
[oracle@JiekeXu ~]$ sh wait_event.sh
INST_ID SID SERIAL# PROGRAM SQL_ID EVENT wait(s)
------- ----- ------- ------------------------------ ------------- ----------------------------------- -------
1 275 21812 sqlplus@JiekeXu (TNS V1-V3) d9n1shwuv7x4q SQL*Net message to client 0
INST_ID SID SERIAL# PROGRAM SQL_ID EVENT wait(s)
------- ----- ------- ------------------------------ ------------- ----------------------------------- -------
1 275 23182 sqlplus@JiekeXu (TNS V1-V3) d9n1shwuv7x4q SQL*Net message to client 0
INST_ID SID SERIAL# PROGRAM SQL_ID EVENT wait(s)
------- ----- ------- ------------------------------ ------------- ----------------------------------- -------
1 275 17811 sqlplus@JiekeXu (TNS V1-V3) d9n1shwuv7x4q SQL*Net message to client 0
INST_ID SID SERIAL# PROGRAM SQL_ID EVENT wait(s)
------- ----- ------- ------------------------------ ------------- ----------------------------------- -------
1 275 4359 sqlplus@JiekeXu (TNS V1-V3) d9n1shwuv7x4q SQL*Net message to client 0
INST_ID SID SERIAL# PROGRAM SQL_ID EVENT wait(s)
------- ----- ------- ------------------------------ ------------- ----------------------------------- -------
1 275 31876 sqlplus@JiekeXu (TNS V1-V3) d9n1shwuv7x4q SQL*Net message to client 0
INST_ID SID SERIAL# PROGRAM SQL_ID EVENT wait(s)
------- ----- ------- ------------------------------ ------------- ----------------------------------- -------
1 275 12138 sqlplus@JiekeXu (TNS V1-V3) d9n1shwuv7x4q SQL*Net message to client 0
INST_ID SID SERIAL# PROGRAM SQL_ID EVENT wait(s)
------- ----- ------- ------------------------------ ------------- ----------------------------------- -------
1 275 44219 sqlplus@JiekeXu (TNS V1-V3) d9n1shwuv7x4q SQL*Net message to client 0
^Z
[1]+ Stopped sh wait_event.sh
当然如果异常等待事件较多,或者这里不止一条 SQL 语句,执行结果输出到屏幕上不是一个很好的选择,便可以使用上面注释掉的一行 SQL 将结果输入到wait_history_$DATE.log 文件,然后查查此文件即可。
watch 命令
下面在看一下使用 watch 命令的效果,watch 是一个非常实用的命令,基本所有的 Linux 发行版都带有这个小工具,如同名字一样,watch 可以帮你监测一个命令的运行结果,省得你一遍遍的手动运行。其后跟 -n 或 --interval 参数, watch 缺省每 2 秒运行一下程序,可以用-n或 -interval 来指定间隔的时间。
atch -n 1 /usr/bin/sh cat_user_session.sh
由于这里是测试用例,没有更多的连接,效果不太明显。异常等待事件和活动会话均不明显,下面通过一生产环境 ADG 备库来演示一下。
监控异常等待事件案例分享
监控 ADG 备库活动会话和异常等待事件,每隔 10 秒钟记录一次,将结果保存到日志文件中,并定期清理历史日志文件。
JIEKEDB1:/app/soft$ls
session_history_2020-09-28.log
PatchSearch.xml session_history_2020-09-22.log session_history_2020-09-28.log.bak
agent session_history_2020-09-23.log session_history_2020-09-29.log
catsession.sh session_history_2020-09-24.log
cleartmplog.sh session_history_2020-09-25.log
p19433930_11204180116_AIX64-5L.zip session_history_2020-09-26.log tmp.log
p20380541_112040_AIX64-5L.zip session_history_2020-09-27.log
---- 申明环境变量后存放一些要查的 SQL,并将结果存入 session_history_$DATE.log
JIEKEDB1:/app/soft$cat catsession.sh
umask 022
export ORACLE_BASE=/app/oracle
export ORACLE_HOME=/app/product/11.2.0/db
export ORACLE_SID=JIEKEXUDB1
export PATH=$ORACLE_HOME/bin:$ORACLE_HOME/OPatch:$PATH
export LIBPATH=$ORACLE_HOME/lib
DATE=`date +%Y-%m-%d`
sqlplus "/ as sysdba" 1>>/app/soft/session_history_$DATE.log 2>&1 <<EOF
set termout off
set heading off feedback off pagesize 0 verify off echo off
set linesize 250 pagesize 300
column program format a30
column event format a45
set time on
host echo '--------------historysession-----------------------'
select to_char(sysdate,'YYYY-MM-DD HH24:MI:SS'),
inst_id,sid,serial#,program,sql_id,event,SECONDS_IN_WAIT
from gv\$session
where status='ACTIVE' and type <> 'BACKGROUND' and wait_class<>'Idle'
and event not in('parallel recovery slave next change')
order by inst_id,sid;
host echo '--数据库异常等待事件-----------------'
select event, SECONDS_IN_WAIT
from v\$session where type <> 'BACKGROUND' and STATE='ACTIVE' and wait_class<>'Idle'
group by event,SECONDS_IN_WAIT
order by SECONDS_IN_WAIT desc;
host echo '-------------------------------'
host echo '--数据库连接数-----------------'
select inst_id,status,count(*) from gv\$session where type <> 'BACKGROUND' group by inst_id,status order by 1;
exit;
EOF
session_history_$DATE.log 日志每天生成一个,时间长久不利于管理,故需要清理,然后使用 cleartmplog.sh 定期清理,脚本如下:
JIEKEDB1:/app/soft$cat cleartmplog.sh
find /app/soft -name "session_history*" -mtime +7 -exec rm -rf {} \;
最后,每 10 秒运行一次,这里还有一点小技巧,crontab 里显示的是分时日月周,并没有秒级别的设置,这里便借助 sleep 10 来达到 10 秒运行一次的效果。
min hour day month week command
分钟 小时 日 月 周 动作(任务命令)
0-59 0-23 1-31 1-12 0-7 命令或脚本(写绝对路径)
JIEKEDB1:/app/soft$crontab -l
* * * * * sleep 10; /usr/bin/sh /app/soft/catsession.sh
* * * * * sleep 20; /usr/bin/sh /app/soft/catsession.sh
* * * * * sleep 30; /usr/bin/sh /app/soft/catsession.sh
* * * * * sleep 40; /usr/bin/sh /app/soft/catsession.sh
* * * * * sleep 50; /usr/bin/sh /app/soft/catsession.sh
* * * * * sleep 60; /usr/bin/sh /app/soft/catsession.sh
30 2 * * * /usr/bin/sh /app/soft/cleartmplog.sh
最后,搂一眼生成的日志, session_history_2020-09-29.log 日志中每 10 秒则会显示 SQL 查询结果,但是有 SQLPlus 登入登出信息,显示的格式不是很友好,脚本可以继续优化。我这里是 AIX 6.1 ADG 备库上的信息,部分 Shell 命令在操作系统上不好用,但 Linux 系统则没有问题,希望看到的小伙伴们可以在尝试一下。
当备库发生性能问题时,便可以通过此日志记录当时会话信息,异常等待事件,便可以分析性能问题,大大的提供了分析资料,节省了很多查询时间,是值得借鉴的,故此推荐给小伙伴们使用。
参考链接 :
如何通过 Shell 监控异常等待事件和活跃会话 : https://mp.weixin.qq.com/s/O7w10MTgCtf94VJg0qkJKQ