《深度学习笔记》——在训练过程中出现nan的调试笔记

songyuc

已于 2022-10-18 12:10:06 修改

阅读量1.2k

点赞数 3

分类专栏：《深度学习笔记》文章标签：深度学习

于 2020-11-23 11:49:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songyuc/article/details/109991366

版权

《深度学习笔记》专栏收录该内容

29 篇文章 4 订阅

订阅专栏

1 出现nan的理论分析

从本质上来说，“出现nan”现象主要是因为数值超出当前数据类型的表示范围，其含义是指 not a number ，常在浮点数运算中出现；
目前知道nan的出现由以下四种来源：
inf-inf | inf/inf | 0*inf | 0/0

2 可能引起nan的原因

2.1 学习率过大，出现梯度爆炸，从而导致loss过大，使得数值溢出；

2.2 在运算过程中，由于出现“除0”运算，导致出现nan

2.3 在使用AdamW优化器时，开启`torch.amp`混合精度运算，出现nan

这是因为optim.AdamW算法存在如下除法运算：
$\theta_{t} \leftarrow \theta_{t}-\gamma \widehat{m_{t}} /\left(\sqrt{\widehat{v_{t}}}+\epsilon\right)$
torch中提供了epsilon参数（默认值eps=1e-08）来防止除0，但是在半精度下近似成了0，所以可能会导致nan；

3 调试方法

判断loss值是否出现nan：

torch.isnan(loss)

Paddle论文复现教程中快速复现NaN的技巧：

保存出现NaN前的模型权重及输入，保证能够在短时间内复现NaN的问题，然后做模型前向对齐；

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《深度学习笔记》——在训练过程中出现nan的调试笔记

1 出现nan的理论分析从本质上来说，“出现nan”现象主要是因为数值超出当前数据类型的表示范围，其含义是指“Not a Number”，常在浮点数运算中出现；2 可能引起nan的原因学习过大，出现梯度爆炸，从而导致loss过大，使得数值溢出出现nan；在运算过程中，由于出现“除0”运算，导致出现nan；3 调试方法判断loss值是否出现nan：torch.isnan(loss)...............
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。