在pytorch框架下，训练model过程中，loss=nan问题时该怎么解决？

最新推荐文章于 2024-07-18 16:06:05 发布

JSLS_Hf

最新推荐文章于 2024-07-18 16:06:05 发布

阅读量1.2w

点赞数 5

分类专栏： pytorch 文章标签： pytorch train alexnet nan

本文链接：https://blog.csdn.net/JSLS_Hf/article/details/81743045

版权

pytorch 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

当我在UCF-101数据集训练alexnet时，epoch设为100，跑到三十多个epoch时，出现了loss=nan问题，当时是一脸懵逼，在查阅资料后，我通过减小学习率解决了问题，现总结一下出现这个问题的可能原因及解决方法：

1. 减小整体学习率。学习率比较大的时候，参数可能over shoot了，结果就是找不到极小值点；
减小学习率可以让参数朝着极值点前进；
2. 改变网络宽度。有可能是网络后面的层参数更新异常，增加后面层的宽度试试；
3. 改变层的学习率。每个层都可以设置学习率，可以尝试减小后面层的学习率试试；
4. 数据归一化（减均值，除方差，或者加入normalization，例如BN、L2 norm等）；
5. 加入gradient clipping；
6 输入数据含有脏数据，即NaN,一般当使用实际业务的真实数据时，容易出现脏数据。