环境说明:
Centos7 +Nvidia T4显卡
问题现象:
运行一段时间后,显卡掉卡,需要重新安装驱动解决。并且日志中报错:
Apr 9 12:03:32 kernel: NVRM: GPU 0000:b2:00.0: rm_init_adapter failed,
device minor number 7
Apr 9 12:03:48 kernel: NVRM: GPU 0000:14:00.0: Failed to copy vbios to
system memory.
Apr 9 12:03:48 kernel: NVRM: GPU 0000:14:00.0: RmInitAdapter failed!
(0x30:0xffff:755)
Apr 9 12:03:48 kernel: NVRM: GPU 0000:14:00.0: rm_init_adapter failed,
device minor number 0
Apr 9 12:03:48 kernel: NVRM: GPU 0000:15:00.0: Failed to copy vbios to
system memory.
Apr 9 12:03:48 kernel: NVRM: GPU 0000:15:00.0: RmInitAdapter failed!
(0x30:0xffff:755)
Apr 9 12:03:48 kernel: NVRM: GPU 0000:15:00.0: rm_init_adapter failed,
device minor number 1
问题解决:
显卡使用时会加载驱动,未使用时会卸载显卡驱动,驱动循环加载导致系统bug,出现掉卡,宕机等情况。所以需要把显卡驱动持久化,保持加载状态。
显卡持久化介绍:
启用持久性模式后,即使没有活动的客户端 (such as X11 or nvidia-smi),NVIDIA 驱动程序也会保持加载状态。这样可以最大程度地减少与运行依赖的应用程序 (例如 CUDA 程序) 相关的驱动程序加载延迟。适用于所有支持 CUDA 的产品。仅 Linux。
Persistence-M (Persistence Mode)
persistence mode 持续模式默认关闭。persistence mode 能够让 GPU 更快响应任务,待机功耗增加。关闭 persistence mode 同样能够启动任务。
启动命令:
nvidia-smi -pm 1
启动之前:
启动之后:
参考链接:
https://www.freesion.com/article/4201198085/