1. 真的显存不足,这种可以通过从单卡变为在多卡上面运行解决
这种时候可以使用nvidia-smi查看一下显卡情况,如下
或者改一下num_of_worker:
改小试试看,如果不行继续排查
2. cuda和pytorch的版本不匹配
注意这里也有个小坑!
30系显卡不能装cuda11以前的!!
30系显卡架构换了,所以不能用之前的驱动,参考目录:https://docs.nvidia.com/deeplearning/cudnn/support-matrix/index.html,从参考目录中可以看见,cuda10系列不支持ampere架构的显卡
3. 测试的时候爆显存有可能是忘记设置no_grad, 示例代码如下:
当时的报错:
仅加model.eval()还是会有会有影响(在我使用LeNet的时候显存是不会爆炸的,使用Resnet就会,所以以防万一还是加上with torch.no_grad())
# 此处是test函数内部,大家加载自己定义的test的迭代器外部即可
model.eval()
with torch.no_grad():
for idx,