在使用服务器跑实验的过程中,突然停电了,看到本地终端的控制台提示训练已终止,不由得心中一紧,在想难道近几日的成果要付之东流了吗?
不过好在为防万一给项目设置了断点训练,只需要重启实验即可。
而当我重新设置好相关参数准备再次开始实验时,却报错了。
RuntimeError: Unable to find a valid cuDNN algorithm to run convolution
按照这个报错猜测可能是cuDNN出了问题,但转念一想我的cuDNN明明是配置好的呀,难道断电还能影响配置,显然是不可能的。带着疑惑,我打开了百度。得知这个是由于显存不足导致的,此时我心中又泛起了嘀咕,参数没改咋就显存溢出了呢,随后我连接好服务器查看了下GPU利用情况,竟然发现:
此时的程序并没有终止,依旧在运行,这种情况之前就发生过,断开连接后程序依旧运行一段时间,随后才会终止。木的办法等一会呗。
不出所料,过一会后程序便终止了。
随后再次开启训练,网络会从断开的epoch开始训练。