在用chainer训练模型的过程中,出现了nan
解决问题的过程:
1. 定位问题,一层一层向下看,找到了最先出现nan的地方
2. 发现是embedding突然发生了改变,有一部分变成了nan
3. 在该情况下检查梯度,发现是梯度突然变成nan
4. 寻找解决梯度为nan的解决方法:
https://groups.google.com/forum/#!topic/chainer/Z192erF7NpA
5. 开启chainer中的debug模式:
6. 报错,发现是词表的大小不对,我的词表大小多了一个。也就是说,我词表的代码写错了。
最后,发现以前面对的问题也就迎刃而解了。
你学会了吗?
这篇攻略最重要的就是chainer中的debug模式。
--------------------------------------------------------------
我们一路奋战,就是想挣点钱吃饭。
2019年10月9日
tip:
在解决这个问题的过程中,我先进行了对比,对比能跑通的数据集和不能跑通的数据集。
这个时候,就应该反映到:是数据集部分的问题。
但很显然我没有做到。