Debian Gnu/Linux 8.7
故障处理实例
os:Debian Gnu/Linux 8.7
kernel:Linux localhost 4.9.0-0.bpo.2-amd64 #1 SMP Debian 4.9.13-1~bpo8+1 (2017-02-27) x86_64 GNU/Linux
浏览器:
Chrome 57.0.2987.110 (64-bit)
显卡
1
:
NVIDIA Corporation G98 [GeForce G 100] (rev a1)
显卡
2
:
Intel Corporation 4 Series Chipset Integrated Graphics Controller (rev 03)
最近使用计算机发现系统总是莫名奇妙的发生黑屏现象,主机正在使用中会突然黑屏。开机后也不能确定何时又会出现黑屏,感觉故障非常的随机。而且故障出现频次越来越频繁,影响主机正常使用。今天主机再次黑屏,等待数分钟后开机并决定查找具体原因。
开机后使用cat /var/log/messages | grep error
查看,没有发现太多异常。使用tail /var/log/messages
只能看到末尾部分,但因为日志生成太快,同样掠过很多重要日志记录。于是使用
tail -n 1500 /var/log/messages > messageslog.log
进行处理,使用emacs messageslog.log
,找到宕机时间段,发现大量类似
18163:Mar 14 03:44:26 xianbirdofprey8400e kernel: [404095.799973] nouveau 0000:01:00.0: therm: temperature (96 C) hit the 'downclock' threshold
信息。
再次使用
cat /var/log/messages | grep temperatuer
关键字发现shutdown
关键字,于是再次使用
cat /var/log/messages | grep temperatuer | grep shutdown
发现如下内容:
766:104034:Mar 16 17:27:29 xianbirdofprey8400e kernel: [626278.751662] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold
767:104035:Mar 16 17:27:35 xianbirdofprey8400e kernel: [626284.334786] nouveau 0000:01:00.0: therm: temperature (124 C) went below the 'shutdown' threshold
814:108656:Mar 17 11:36:35 xianbirdofprey8400e kernel: [63454.189739] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold
从时间上看刚好接近主机黑屏时的时间,但无法确定故障具体原因。上万能的百度(oschina.net)发帖寻求帮助。知道了原来可以在Linux系统中安装sensors以及xsensors查看设备温度,赶快使用apt-get install xsensors sensors
安装软件,并使用sensors进行查看:
14:58:49[root@xianbirdofprey8400e /proc]# sensors
coretemp-isa-0000
Adapter: ISA adapter
Core 0: +45.0°C (high = +80.0°C, crit = +100.0°C)
Core 1: +45.0°C (high = +80.0°C, crit = +100.0°C)
nouveau-pci-0100
Adapter: PCI adapter
temp1: +112.0°C (high = +95.0°C, hyst = +3.0°C)
(crit = +122.0°C, hyst = +2.0°C)
(emerg = +135.0°C, hyst = +5.0°C)
显卡温度已经接近关机温度。4分钟后主机自主关闭(很销魂的自主动作) 再次开机使用cat /var/log/messages | grep temperatuer | grep shutdown
命令查看日志显示如下:
766:104034:Mar 16 17:27:29 xianbirdofprey8400e kernel: [626278.751662] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold
767:104035:Mar 16 17:27:35 xianbirdofprey8400e kernel: [626284.334786] nouveau 0000:01:00.0: therm: temperature (124 C) went below the 'shutdown' threshold
814:108656:Mar 17 11:36:35 xianbirdofprey8400e kernel: [63454.189739] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold
844:110541:Mar 17 15:02:54 xianbirdofprey8400e kernel: [12040.904513] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold
同时使用xsensors查看显卡温度,升温及其迅速,很快就到了90°C,多跑几个应用就可以达到135°C,然后系统就销魂的黑屏。
打开机箱开机观察,发现显卡风扇转速缓慢,至此问题定位结束
本机外置
N
卡损坏后,直接用本机集成显卡代替,但有时使用
Chrome
打开网页时,系统会挂起,切换到终端模式下,发下系统报如下错误:
[drm:drm_atomic_helper_commit_cleanup_done [drm_kms_helper]] *ERROR* [CRTC:26:pipe A] flip_done timed out
网上查找资料,发现该问题似乎从内核
4.8
之后就一直存在,
这是一个与视频驱动程序相关的错误,特别是对于
intel
内核
DRM
。
解决方法:
按照
bbs.archlinux.org
论坛中给的解决方法需要按如下操作完成。
1
、使用命令
vi /etc/default/grub
修改
GRUB_CMDLINE_LINUX_DEFAULT
行内容如下:
GRUB_CMDLINE_LINUX_DEFAULT="video=SVIDEO-1:d quiet"
2
、使用命令
update-grub
更新
Grub
并重新启动系统。
3 、打开chrome流浪器,使用Ctrl+F,搜索GPU,并将相关项关闭。至此系统恢复稳定运行。以上问题对于其它
Linux
发行版处理过程稍有不同,但基本命令以及配置方法具有通用性。其他发行版
Linux
可以如有该问题可以进行借鉴