1 显存不够,batchsize要调小,但是batchsize==1训练很难收敛
2 RuntimeError: Unable to find a valid cuDNN algorithm to run convolution
这个是cudnn的问题,一个可能是cudnn cuda没配好,还有一个是缓存不够了,服务器没变化呢就是显存满了,fuser -v /dev/nvidia* >> out.out 输出到out.out里边看什么占用了显存 ( 没有fuser 命令就sudo apt-get install psmisc)然后把占用显存的进程关掉就好了(kill掉 kill -9 进程号)
3 RuntimeError: Given groups=1, weight of size [64, 448, 3, 3], expected input[4, 896, 320, 320] to have 448 channels, but got 896 channels instead
关于网络卷积过程中的一些参数的问题,要对整个卷积过程有充分的了解
4一块GPU跑起来还是比较慢,有点带不动,在尝试调成两块GPU跑