代码踩坑记录
说明
本文记录本人在代码编写过程中遇到的种种bug。
踩坑记录
使用 enumerate 遍历 Pytorch Dataset 实例
- 问题描述:python 中的 enumerate 可以用于迭代遍历一个列表等可以迭代的对象,但如果直接使用 enumearte 遍历 Pytorch 的 Dataset 实例,会出现无法终止迭代的情况。
- 解决方案:使用 Pytorch 的 DataLoader 封装 Dataset,在使用 enumerate 进行遍历。
- 原因分析:猜测可能是因为要经过 DataLoader 封装之后,Dataset 才能变成可迭代的对象。(但是为什么 Dataset 不可以迭代???却可以使用 for data in dataset: 的形式遍历)
Python 多线程 multiprocessing.Pool(jobs).imap(…) 有bug
- 问题描述: python 用于多线程的函数中如果涉及 Pytorch 模型的调用,可能会导致线程挂起或阻塞。直观上就是:程序卡住了,如果 Control+C 中断程序会出现类似如下信息:
*** File "/usr/lib/python3.7/multiprocessing/pool.py", line 746, in next item = self._items.popleft() IndexError: pop from an empty deque During handling of the above exception, another exception occurred: ***
- 解决方案:还不会解决,暂时只能不用多线程调用同一个模型。
- 原因分析:似乎是 python 3.7/3.8 的bug,具体原因未知。可以参见 https://bugs.python.org/issue35629
损失函数出现 nan.
- 问题描述:在训练深度学习模型的时候,经常出现损失函数为nan.的情况。
- 解决方案:检查除运算是否会出现除 0 操作;或设置梯度裁剪。
- 原因分析:可能是在模型中的某一步出现除以0,或者乘上了一个很大的数。如果出现nan不具有随机性,则可以断点调试,看是哪一步开始出现nan;如果具有随机性可以先检查是否可能有除以0的操作,或者消除随机性(模型参数固定、数据读取固定、设置随机种子等),在进行断点调试。
需要梯度更新的变量被更改了 2022.04.14
- 问题描述:在模型训练时,调用 ***.backward() 之后报错,提示“需要梯度下降的变量被更改”。具体报错信息如下:
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: ***
- 解决方案:使用
torch.autograd.set_detect_anomaly(True)
可以打印出导致此类问题的具体语句以及调用栈。把相应的内置操作进行修改。 - 原因分析:通常是因为使用原地操作(或称为inplace operation)修改了需要梯度更新的变量,例如使用了带有下划线的内置函数(
scatter_
等)或者使用+=
这类内置运算符。尽量避免使用这类操作,例如:使用scatter
而不是scatter_
,使用a = a + b
而不是a += b
。