平台:飞腾+银河麒麟
集群:SDS两节点
现象:
1、数据库不定时的出现无法访问的错误;dbaccess的时候报出了27001的错误;
2、onstat -g ntt可以看到监听的IP和端口都是正常的;
3、应用和客户端都连接不上,也没有反应,dbaccess 的时候报出了27001的错误;
4、发现部分CPU的使用率一直是100%,长期观察,并不固定是哪几个CPU;
问题排查:
1、top找到占用CPU高的进程都是 oninit进程;
2、根据进程号在onstat -g glo中可以得到CPU VP的信息;
3、onstat -g ath|grep 1cpu 没有发现这些忙的CPU VP上有繁忙的线程,这个是最诡异的;
4、onstat -g ppf中,没有发现大量的bufread引起的CPU使用率高的现象;
5、vmstat 1 可以排除大量的磁盘读写引起的CPU 使用率高的问题;
联系研发:
gdb attach $pid
>>thread apply all bt
>>c
>>bt
>>quit
pstack $pid 没有改命令
也没有发现实质性的东西~~~~~~~~~~~~~~~~~~~~~~~~~~
处理方法:
1、关闭sysadmin,重启数据库,发现全部节点正常。
怀疑是sysadmin中的部分任务的执行存在bug,但是比较low的是没有定位出来具体是那个导致了问题的出现。