【昇腾故障案例-安装部署】Atlas 800-9000 EulerOS 2.8系统,fio压测时OS发生softlockup重启

问题现象描述

硬件配置:内存(24*32G)网卡(4*100G)系统盘(PM883 480G)数据盘(1*PM883 480G, 7*960G SAS, 1*3.84T SAS)

问题现象:scend_dmi 工具同时对 NPU、硬盘、网卡、CPU 和内存进行压力测试,压测 25 小时后 OS 发生 soft lockup,打印日志如下:

关键过程、根本原因分析

具体请参见结论、解决方案及效果。

结论、解决方案及效果

结论:fio 压力超过磁盘处理能力极限,导致 io 处理流程较长,最终发生 softlockup

解决方案:

针对 fio 压测场景(其他场景保持默认或按其他说明配置)可执行如下措施:

延长 softlockup 触发时间和关闭 softlockup panic 设置(即发生 softlockup 时,系统不重启)。

1. 临时修改(重启会恢复默认配置)

执行如下命令:

sysctl -w kernel.watchdog_print_period=60

sysctl -w kernel.watchdog_thresh=30

sysctl -w kernel.softlockup_panic=0

2. 永久修改

添加如下配置到 /etc/sysctl.conf 文件中,然后执行 sysctl -p。

kernel.watchdog_print_period=60

kernel.watchdog_thresh=30

kernel.softlockup_panic=0

3. 验证方法

执行如下命令,查看执行结果

sysctl -a | grep -E "watchdog_print_period|watchdog_thresh|softlockup_panic"

查看输出数值是否为设置数值。

经验总结、预防措施和规范建议

备注

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值