Pytorch-lightning使用过程遇到的bug：CUDNN_STATUS_INTERNAL_ERROR

呜啦啦呜呼z

已于 2023-07-13 18:43:18 修改

阅读量302

点赞数

分类专栏： Carla 文章标签： bug python pytorch

于 2023-03-02 20:01:24 首次发布

本文链接：https://blog.csdn.net/Vccp_1M/article/details/129307235

版权

Carla 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Bug来源：
在这里插入图片描述
报错如下：

cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

解决方案：
（1）改小batch_size的值（4或更小），但该方法不太管用
（2）如果经过（1）后又出现如下的报错：

RuntimeError: CUDA out of memory. Tried to allocate 3.03 GiB (GPU 0; 8.00 GiB total capacity; 409.61 MiB already allocated; 5.88 GiB free; 654.00 MiB reserved in total by PyTorch)

这不是超出memory的问题，可能是DataLoader的workers太多了，例如我下面加起来workers=16了。

    dataloader_train = DataLoader(train_set, batch_size=args.batch_size, shuffle=True, num_workers=8)
    dataloader_val = DataLoader(val_set, batch_size=args.batch_size, shuffle=False, num_workers=8)

    trainer.fit(model, dataloader_train, dataloader_val)