quan:Exadata计算节点由kswapd0进程引起的IO使用率100%,内存不足的故障处理


系统环境:Exadata X2-2 1/4 Rack, 11.2.0.3.7 RAC
问题描述:计算节点二登陆异常缓慢,系统资源严重不足,SWAP交换分区剩余0





解决步骤:

首先看到用IOstat统计 util%已经达到了100%,说明本地磁盘使用率已经慢负荷运转,但是Exadata是比较特殊的系统,
IO的压力主要在cell节点。本地磁盘出现IO消耗高是十分异常的事件,因此我们通过
ps -eo pid,user,wchan=WIDE-WCHAN-COLUMN -o s,cmd|awk ' $4 ~ /D/ {print $0}' 这条命令去抓系统内占用IO的进程:
[dsg@sddxdb02 scripts]$ ps -eo pid,user,wchan=WIDE-WCHAN-COLUMN -o s,cmd|awk ' $4 ~ /D/ {print $0}' 209 root congestion_wait D [kswapd0] [dsg@sddxdb02 scripts]$ ps -eo pid,user,wchan=WIDE-WCHAN-COLUMN -o s,cmd|awk ' $4 ~ /D/ {print $0}' 209 root congestion_wait D [kswapd0] 127931 grid sync_page D oracle+ASM2_asmb_exadb2 (DESCRIPTION=(LOCAL=YES)(ADDRESS=(PROTOCOL=beq))) [dsg@sddxdb02 scripts]$ ps -eo pid,user,wchan=WIDE-WCHAN-COLUMN -o s,cmd|awk ' $4 ~ /D/ {print $0}' 209 root congestion_wait D [kswapd0]
 从上面可以看到系统内kswapd0进程在消耗IO。关于KSwapd0的解释:
1.Linux uses kswapd for virtual memory management such that pages that have been recently accessed are kept in memory and less active pages are paged out to disk.
2.系统每过一定时间就会唤醒kswapd进程,查看内存资源是否紧张,如果不紧张,则继续睡眠,在kswapd中,有2个阀值,pages_hige和pages_low,当空闲内存页的数量低于pages_low的时候,kswapd进程就会扫描内存并且每次释放出 32个free pages,直到free page的数量到达pages_high.

也就是说kswapd0是有内存资源不足而唤醒的,它去扫描并释放空闲内存,期间会执行大量的换页操作,极有可能就是此进程造成的IO 100%耗尽。

但是SWAP为什么会被消耗尽呢?我们进一步通过命令观察内存使用情况:ps aux --sort=%mem



这条dbfs_client进程格外异常,我们看到在 %MEM这一列此进程占用了49.8%。经过与现场沟通,DBFS仅作为
测试使用,没有在生产环境上用起来,早就停止不用了,但是没有关闭掉,DBFS还在挂载中。

于是执行卸载DBFS的命令:
fusermount -u /dbfs

稍后对系统资源进行了监控,TOP,iostat 观察输出结果:

IO负载已恢复正常:


swap区已降下来,换页频度下降同时kswapd0进程消失:



通过上面的处理,系统性能恢复正常。但是DBFS消耗这么高的内存尚属首次碰到,需要进一步研究, 在此记录下的分析过程同样适用于非一体机环境。

参考文档:

https://oracle-base.com/articles/11g/dbfs-11gr2

http://www.eygle.com/archives/2010/12/kswapd_rac.html




来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22878696/viewspace-1805953/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/22878696/viewspace-1805953/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
引用\[1\]:准确没有达到很高考虑到是因为训练样本不够多,而狗和狐狸的召回较低,观察检测的样本结果看到狗是未被检测出来,考虑是因为狗的不同品种外形差距较大,而训练集并没有包含全部狗的品种,从而导致这样的结果;而狐狸的检测结果显示其多是被误判成猫,也和最开始选择训练集的原因一样,其在外形相似度很高的情况下能达到70%的召回结果还是比较满意的。 问题: yolov5准确召回计算 回答: YOLOv5的准确和召回可以通过计算网络输出与真实图像的均方和误差来得到。YOLOv5使用均方和误差作为loss函数来优化模型参数,即网络输出的SS(B5 + C)维向量与真实图像的对应SS*(B*5 + C)维向量的均方和误差。\[2\]准确是指模型预测的正例中有多少是真实正例,而召回是指模型能够正确检测出的真实正例占所有真实正例的比例。在训练过程中,可以通过调整二分类器预测正例的门槛来提高准确或召回。如果希望提高准确,可以提高二分类器预测正例的门槛,使得只有置信度较高的样例才被标注为正例;而如果希望提高召回,可以降低二分类器预测正例的门槛,使得置信度较低的样例也被标注为正例,从而尽可能多地检测出真实正例。\[3\]因此,要计算YOLOv5的准确和召回,需要根据具体的训练设置和门槛调整策略进行相应的计算。 #### 引用[.reference_title] - *1* *2* [模式识别:动物目标检测——YOLOv5开发](https://blog.csdn.net/hu_la_quan/article/details/121944635)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [YOLOv5训练结果分析](https://blog.csdn.net/qq_42784882/article/details/127386465)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值