代码踩坑记录

说明

本文记录本人在代码编写过程中遇到的种种bug。

踩坑记录

使用 enumerate 遍历 Pytorch Dataset 实例

  1. 问题描述:python 中的 enumerate 可以用于迭代遍历一个列表等可以迭代的对象,但如果直接使用 enumearte 遍历 Pytorch 的 Dataset 实例,会出现无法终止迭代的情况。
  2. 解决方案:使用 Pytorch 的 DataLoader 封装 Dataset,在使用 enumerate 进行遍历。
  3. 原因分析:猜测可能是因为要经过 DataLoader 封装之后,Dataset 才能变成可迭代的对象。(但是为什么 Dataset 不可以迭代???却可以使用 for data in dataset: 的形式遍历)

Python 多线程 multiprocessing.Pool(jobs).imap(…) 有bug

  1. 问题描述: python 用于多线程的函数中如果涉及 Pytorch 模型的调用,可能会导致线程挂起或阻塞。直观上就是:程序卡住了,如果 Control+C 中断程序会出现类似如下信息:
    ***
      File "/usr/lib/python3.7/multiprocessing/pool.py", line 746, in next
        item = self._items.popleft()
    IndexError: pop from an empty deque
    
    During handling of the above exception, another exception occurred:
    ***
    
  2. 解决方案还不会解决,暂时只能不用多线程调用同一个模型
  3. 原因分析:似乎是 python 3.7/3.8 的bug,具体原因未知。可以参见 https://bugs.python.org/issue35629

损失函数出现 nan.

  1. 问题描述:在训练深度学习模型的时候,经常出现损失函数为nan.的情况。
  2. 解决方案:检查除运算是否会出现除 0 操作;或设置梯度裁剪。
  3. 原因分析:可能是在模型中的某一步出现除以0,或者乘上了一个很大的数。如果出现nan不具有随机性,则可以断点调试,看是哪一步开始出现nan;如果具有随机性可以先检查是否可能有除以0的操作,或者消除随机性(模型参数固定、数据读取固定、设置随机种子等),在进行断点调试。

需要梯度更新的变量被更改了 2022.04.14

  1. 问题描述:在模型训练时,调用 ***.backward() 之后报错,提示“需要梯度下降的变量被更改”。具体报错信息如下:
    RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: ***
    
  2. 解决方案:使用 torch.autograd.set_detect_anomaly(True)可以打印出导致此类问题的具体语句以及调用栈。把相应的内置操作进行修改。
  3. 原因分析:通常是因为使用原地操作(或称为inplace operation)修改了需要梯度更新的变量,例如使用了带有下划线的内置函数(scatter_等)或者使用 +=这类内置运算符。尽量避免使用这类操作,例如:使用 scatter而不是 scatter_,使用 a = a + b而不是 a += b

待续…

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值