Debian Gnu/Linux 8.7故障处理实例

Debian Gnu/Linux 8.7故障处理实例
os:Debian Gnu/Linux 8.7
kernel:Linux localhost 4.9.0-0.bpo.2-amd64 #1 SMP Debian 4.9.13-1~bpo8+1 (2017-02-27) x86_64 GNU/Linux
浏览器:Chrome 57.0.2987.110 (64-bit)
显卡1NVIDIA Corporation G98 [GeForce G 100] (rev a1)
显卡2Intel Corporation 4 Series Chipset Integrated Graphics Controller (rev 03)

最近使用计算机发现系统总是莫名奇妙的发生黑屏现象,主机正在使用中会突然黑屏。开机后也不能确定何时又会出现黑屏,感觉故障非常的随机。而且故障出现频次越来越频繁,影响主机正常使用。今天主机再次黑屏,等待数分钟后开机并决定查找具体原因。

开机后使用cat /var/log/messages | grep error查看,没有发现太多异常。使用tail /var/log/messages只能看到末尾部分,但因为日志生成太快,同样掠过很多重要日志记录。于是使用

tail -n 1500 /var/log/messages > messageslog.log

进行处理,使用emacs messageslog.log,找到宕机时间段,发现大量类似

18163:Mar 14 03:44:26 xianbirdofprey8400e kernel: [404095.799973] nouveau 0000:01:00.0: therm: temperature (96 C) hit the 'downclock' threshold

信息。

再次使用

cat /var/log/messages | grep temperatuer

关键字发现shutdown关键字,于是再次使用

cat /var/log/messages | grep temperatuer | grep shutdown

发现如下内容:

766:104034:Mar 16 17:27:29 xianbirdofprey8400e kernel: [626278.751662] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold
767:104035:Mar 16 17:27:35 xianbirdofprey8400e kernel: [626284.334786] nouveau 0000:01:00.0: therm: temperature (124 C) went below the 'shutdown' threshold
814:108656:Mar 17 11:36:35 xianbirdofprey8400e kernel: [63454.189739] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold

从时间上看刚好接近主机黑屏时的时间,但无法确定故障具体原因。上万能的百度(oschina.net)发帖寻求帮助。知道了原来可以在Linux系统中安装sensors以及xsensors查看设备温度,赶快使用apt-get install xsensors sensors安装软件,并使用sensors进行查看:

14:58:49[root@xianbirdofprey8400e /proc]# sensors
coretemp-isa-0000
Adapter: ISA adapter 
Core 0:   +45.0°C  (high = +80.0°C, crit = +100.0°C) 
Core 1:   +45.0°C  (high = +80.0°C, crit = +100.0°C) 

nouveau-pci-0100 
Adapter: PCI adapter 
temp1:   +112.0°C  (high = +95.0°C, hyst =  +3.0°C)  
   (crit = +122.0°C, hyst =  +2.0°C) 
   (emerg = +135.0°C, hyst =  +5.0°C)

显卡温度已经接近关机温度。4分钟后主机自主关闭(很销魂的自主动作) 再次开机使用cat /var/log/messages | grep temperatuer | grep shutdown命令查看日志显示如下:

766:104034:Mar 16 17:27:29 xianbirdofprey8400e kernel: [626278.751662] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold
767:104035:Mar 16 17:27:35 xianbirdofprey8400e kernel: [626284.334786] nouveau 0000:01:00.0: therm: temperature (124 C) went below the 'shutdown' threshold
814:108656:Mar 17 11:36:35 xianbirdofprey8400e kernel: [63454.189739] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold
844:110541:Mar 17 15:02:54 xianbirdofprey8400e kernel: [12040.904513] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold

同时使用xsensors查看显卡温度,升温及其迅速,很快就到了90°C,多跑几个应用就可以达到135°C,然后系统就销魂的黑屏。

打开机箱开机观察,发现显卡风扇转速缓慢,至此问题定位结束

本机外置N卡损坏后,直接用本机集成显卡代替,但有时使用Chrome打开网页时,系统会挂起,切换到终端模式下,发下系统报如下错误:
[drm:drm_atomic_helper_commit_cleanup_done [drm_kms_helper]] *ERROR* [CRTC:26:pipe A] flip_done timed out
网上查找资料,发现该问题似乎从内核4.8之后就一直存在,这是一个与视频驱动程序相关的错误,特别是对于intel内核DRM
解决方法:
按照bbs.archlinux.org论坛中给的解决方法需要按如下操作完成。
1、使用命令vi /etc/default/grub修改GRUB_CMDLINE_LINUX_DEFAULT行内容如下:GRUB_CMDLINE_LINUX_DEFAULT="video=SVIDEO-1:d quiet"
2、使用命令update-grub更新Grub并重新启动系统。
 3   、打开chrome流浪器,使用Ctrl+F,搜索GPU,并将相关项关闭。
至此系统恢复稳定运行。以上问题对于其它Linux发行版处理过程稍有不同,但基本命令以及配置方法具有通用性。其他发行版Linux可以如有该问题可以进行借鉴

转载于:https://my.oschina.net/Birdofprey/blog/863559

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值