PyTorch踩过的坑---持续更新

最新推荐文章于 2024-04-13 03:04:52 发布

Edge of Chaos

最新推荐文章于 2024-04-13 03:04:52 发布

阅读量806

点赞数 2

分类专栏： BUG记录

本文链接：https://blog.csdn.net/qq_34512244/article/details/106393766

版权

3 篇文章

订阅专栏

记录使用PyTorch过程中所踩过的一些坑，尽量保持遇坑则更新！

现象描述： 只想保存一部分tensor到本地，数据明明不多，但保存下来却巨大；导致无法完成训练，显存被用完（排除模型太大的因素，并且总的数据小于显存大小）。
原因： 假设一个tensor的size()为[6,1400,64]，想要保存[6,1,64]这些数据，却发现保存的时候每次将全部的[6,1400,64]数据都保存了下来，原因是这就是torch.save()保存tensor的一个机制，目的似乎是为了加载的时候共享存储（来源，GitHub pytorch issues）。
解决办法：torch.save(x[6,1,64].clone())
隐患： 可能会对梯度造成一些影响。

现象描述： GPU的显存明明还有很多，但加载模型却总是报错：RuntimeError: CUDA error: out of memory
原因： 不明。
解决方法： 首先将模型加载到CPU，然后再加载到GPU；如下：model = torch.load(path, map_location='cpu')

现象描述： 使用nn.utils.rnn.pad_sequence()将不同的序列补齐到相同的长度，方便大batch下加快训练速度，但当调用该方法时报错提示维度不匹配。例：有两个序列大小分别为(6,400)和(6,300)，此时调用就会报错。
原因&解决办法： 使用内置的这个方法对不同长度的rnn序列补零时，原始序列应当为(L, N)，其中L表示序列的长度，可以是不相同的；而N表示原始序列的维度，这个维度需要是相同的。接上例：对两个序列转置，即大小分别为(400,6)和(300,6)，此时可以调用该方法。

现象描述： 有时需要自定义卷积神经网络的权重，如果根据某些教程使用nn.Parameter()来包装参数就会造成无法反向传播的问题。
原因&解决办法： 去掉即可，直接将tensor作为参数传入即可。PS：在PyTorch 1.2中发现了这个问题，不确定其他版本的PyTorch也有这个问题。

现象描述： 在GPU0上训练一个模型后，保存参数、加载，此时指定GPU1，但实际中发现GPU0仍然占用了显存。
原因&解决办法：torch.load(f,map_location=None)，这里的map_location参数默认为None，这个参数可以控制加载后的模型所在的设备，即CPU或GPU，设置为torch.device("cuda")即可；PS：网上有说在 GPU 上加载在 GPU 上训练并保存的模型时这个参数并不起作用，但根据实际使用来看还是会起作用的。