记一次设备不断重启的排查经历

最新推荐文章于 2023-08-01 01:12:47 发布

圣骐

最新推荐文章于 2023-08-01 01:12:47 发布

阅读量683

点赞数

分类专栏：操作系统文章标签：设备宕机设备负载高不断重启

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012500825/article/details/84570708

版权

操作系统专栏收录该内容

2 篇文章 0 订阅

订阅专栏

设备不断重启排查记

问题现象
排查过程
问题结论&解决方案
排查总结
鸣谢&参考资料

实际上事情已经过去好几天了，最近稍微松懈一些，决定对之前遇到的一个奇怪问题以及排查过程记录一下。

问题现象

设备起来，用uptime查看设备的负载不断增高，设备24核，启动后正常的负载18左右。
负载不断增高，达到160左右设备重启，周而复始。

排查过程

负载很高时候free -m查看设备的剩余内存，很充足，多达13G(设备一共内存32G)
top 查看设备的整体负载，每个cpu都有很大的空闲，一段时间（15s左右）内没发现异常
在设备上执行诸如ls，ps aux 类似的命令有时候一会卡死，ctrl+c没有任何的响应
ps aux | wc -l 查看系统一共进程才980+个，不算多
ps aux | grep "D " 多达几十个进程处于D状态
既然处于D状态（不可描述中断），怀疑是在等待I/O，因此有如下的排查过程
- smartctrl 查看磁盘是否坏道，未发现异常
- iostat 查看磁盘的使用率，并无异常
- iotop工具查看使用磁盘非常高的进程，并无异常
- vmstat 查看I/O的等待情况，并无异常，但是结果的r这列持续在40+，和D状态的进程数基本一致，r表示等待CPU的进程数
随机选择几个D状态的进程，查看调用栈(cat /proc/$pid/stack)都是卡在如下地方

至此想必就是这里的问题了，看起来是内核的bug了，修炼不到家，似乎搞不定，于是使用百度(公司不能上google)搜索stub_execve看到一个小伙似乎遇到过这样的问题，参见stub_execve问题描述具体如下：

对比上面的的条件以及问题设备发现恰好一致。

CPU型号符合
内核版本经过比对也是符合
设备在问题之前已经运行了217天
设备 /var/log/messages 日志中有 hung_task: blocked tasks 日志
设备有较多进程处于D状态
设备top CPU利用率已经时间很大，这里要认真观察才能看出来
红帽对于该问题介绍红帽问题433833

问题结论&解决方案

该问题系内核和cpu结合产生的一个TSC时间错误问题。可以升级内核或者补丁方式处理。

排查总结

基本工具要善于使用：vmstat iotop iostat free top ps 等
对系统了解，本案中进程stack调用栈产看至关重要
系统黑匣子，messages日志，业务日志查看也许都能捕捉蛛丝马迹
资料查询并核实

鸣谢&参考资料

感谢公司大佬关键时刻的指点，感谢前人的努力，很好奇这种bug怎么查出来的，这个功夫深啊。
[1]:stub_execve问题描述
[2]:红帽问题433833
[3]:TSC时间错误问题及解决方案

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

圣骐 CSDN认证博客专家 CSDN认证企业博客

码龄11年

45: 原创

14万+: 周排名

174万+: 总排名

11万+: 访问

: 等级

1448: 积分

12: 粉丝

24: 获赞

13: 评论

68: 收藏

私信

关注

热门文章

分类专栏

最新评论

systemctl start docker一直卡住排查
决胜万里: 防火墙开放就行了
systemctl start docker一直卡住排查
耳东先生a: 我知道咨询相关人员，呀，那就不用来问你了
C++中extern用于类
If_life: 如果 A 类有static数据呢
TI cc2540 USB dongle改造成HID 设备
圣骐回复 qq_29099215: 这个问题初步定位应该是出在TI的代码中，因为第一次并没有超时，各种看代码，部分并不能看明白，比如碰见USBCNT0,USBF1等等，其实这些都是usb寄存器，需要看相关说明文档，就可以了，看了这个文档，上面小节潜伏的两个问题也一起解决了。收到的数据长度在该文档的195页有说明。数据存放在USBFx（x是具体的endpoint）中。基本弄明白之后仿照halUartPollRx函数写一段接收的代码即可，不细说，有需求可自行查看该函数。
TI cc2540 USB dongle改造成HID 设备
qq_29099215: 你好，最近我也遇到了相同的问题，第一次发送成功，之后设备就断开了连接，请问当时是如何解决这个问题的呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。