AutoDL 跑深度学习报错：RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

啥时候毕业

已于 2024-04-07 10:03:37 修改

阅读量747

点赞数 8

文章标签：深度学习人工智能 python

于 2024-04-07 10:01:52 首次发布

本文链接：https://blog.csdn.net/m0_58035123/article/details/137452422

版权

提示中给出了一段其他的代码来检测：

import torch

# 设置CUDA和cuDNN配置
torch.backends.cuda.matmul.allow_tf32 = True
torch.backends.cudnn.benchmark = True
torch.backends.cudnn.deterministic = False
torch.backends.cudnn.allow_tf32 = True

# 创建输入数据和网络
data = torch.randn([16, 1, 33, 33], dtype=torch.float, device='cuda', requires_grad=True)
net = torch.nn.Conv2d(1, 64, kernel_size=[9, 9], padding=[4, 4], stride=[1, 1], dilation=[1, 1], groups=1)
net = net.cuda().float()

# 在GPU上执行前向传播和反向传播
out = net(data)
out.backward(torch.randn_like(out))
torch.cuda.synchronize()

# 显示卷积参数信息
print("ConvolutionParams")
print("data_type = CUDNN_DATA_FLOAT")
print("padding = [4, 4, 0]")
print("stride = [1, 1, 0]")
print("dilation = [1, 1, 0]")
print("groups = 1")
print("deterministic = false")
print("allow_tf32 = true")
print("input: TensorDescriptor 0x56528e74e640")
print("type = CUDNN_DATA_FLOAT")
print("nbDims = 4")
print("dimA = 16, 1, 33, 33, ")
print("strideA = 1089, 1089, 33, 1, ")
print("output: TensorDescriptor 0x56528e765c50")
print("type = CUDNN_DATA_FLOAT")
print("nbDims = 4")
print("dimA = 16, 64, 33, 33, ")
print("strideA = 69696, 1089, 33, 1, ")
print("weight: FilterDescriptor 0x56528e765c10")
print("type = CUDNN_DATA_FLOAT")
print("tensor_format = CUDNN_TENSOR_NCHW")
print("nbDims = 4")
print("dimA = 64, 1, 9, 9, ")
print("Pointer addresses:")
print("input: 0x7f2642c70c00")
print("output: 0x7f25e4400000")
print("weight: 0x7f2642c00000")

运行以后依旧出现以上报错，说明并不是脚本的问题。但想来想去，Auto DL平台CUDA与cuDNN是配置好的啊，不会出现CUDA和cuDNN版本与PyTorch不兼容的问题。

也有伙伴说是由于显存不足，需要调整Batchsize，于是把Batchsize从32依次调整到16、8、4，仍然不管用，且运行