情况1:batch_size过大
解决办法:改小每轮放进网络的训练或测试的数据。256,128,64,32,16,8......根据自己的硬件设备选择合适的数值。
注:训练和测试数据的大小都可能引起out of memory报错。
情况2:显卡被其他程序占用
解决办法:由于之前的训练占用显卡,但未彻底结束占用。
- 使用nvidia-smi会发现有程序占用大量显卡资源,类似下图:
图片来源:https://blog.csdn.net/lgh0824/article/details/77096241/
使用代码命令直接杀死
sudo kill -9 PID(进程号)
-------------------------更新2020/04/23--------------------------------
- 打开ubuntu系统监视器
有时nvidia-smi无法看到正在占用的程序,此时可以打开系统监视器。根据内存占用情况直接结束该进程。
若遇到其他情况继续更新。