PyTorch踩过的坑---持续更新

记录使用PyTorch过程中所踩过的一些坑,尽量保持遇坑则更新!


0、数据保存

  • 现象描述: 只想保存一部分tensor到本地,数据明明不多,但保存下来却巨大;导致无法完成训练,显存被用完(排除模型太大的因素,并且总的数据小于显存大小)。

  • 原因: 假设一个tensor的size()为[6,1400,64],想要保存[6,1,64]这些数据,却发现保存的时候每次将全部的[6,1400,64]数据都保存了下来,原因是这就是torch.save()保存tensor的一个机制,目的似乎是为了加载的时候共享存储(来源,GitHub pytorch issues)。

  • 解决办法:torch.save(x[6,1,64].clone())

  • 隐患: 可能会对梯度造成一些影响。


1、模型保存与加载

  • 现象描述: GPU的显存明明还有很多,但加载模型却总是报错:RuntimeError: CUDA error: out of memory
  • 原因: 不明。
  • 解决方法: 首先将模型加载到CPU,然后再加载到GPU;如下:model = torch.load(path, map_location='cpu')

2、使用nn.utils.rnn.pad_sequence()补齐序列

  • 现象描述: 使用nn.utils.rnn.pad_sequence()将不同的序列补齐到相同的长度,方便大batch下加快训练速度,但当调用该方法时报错提示维度不匹配。例:有两个序列大小分别为(6,400)和(6,300),此时调用就会报错。
  • 原因&解决办法: 使用内置的这个方法对不同长度的rnn序列补零时,原始序列应当为(L, N),其中L表示序列的长度,可以是不相同的;而N表示原始序列的维度,这个维度需要是相同的。接上例:对两个序列转置,即大小分别为(400,6)和(300,6),此时可以调用该方法。

3、卷积操作使用自定义的权重,但无法反向传播

  • 现象描述: 有时需要自定义卷积神经网络的权重,如果根据某些教程使用nn.Parameter()来包装参数就会造成无法反向传播的问题。
  • 原因&解决办法: 去掉即可,直接将tensor作为参数传入即可。PS:在PyTorch 1.2中发现了这个问题,不确定其他版本的PyTorch也有这个问题。

4、加载模型参数后没有使用指定的GPU

  • 现象描述: 在GPU0上训练一个模型后,保存参数、加载,此时指定GPU1,但实际中发现GPU0仍然占用了显存。
  • 原因&解决办法:torch.load(f,map_location=None),这里的map_location参数默认为None,这个参数可以控制加载后的模型所在的设备,即CPU或GPU,设置为torch.device("cuda")即可;PS:网上有说在 GPU 上加载在 GPU 上训练并保存的模型时这个参数并不起作用,但根据实际使用来看还是会起作用的。

未完待续……

参考资料

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值