工程实践_深度学习训练模型时Loss出现NAN的原因及解决办法

最新推荐文章于 2025-06-06 20:15:40 发布

原创最新推荐文章于 2025-06-06 20:15:40 发布 · 2.6k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #神经网络 #机器学习 #Loss出现NAN #debug

工程实践专栏收录该内容

23 篇文章

订阅专栏

本文深入探讨了深度学习中常见的梯度爆炸问题，分析了包括学习率过大、网络结构设计不当、代码迁移错误、数据集异常及损失函数设置不合理在内的五大成因。并针对每种情况，提供了详细的解决方案，如数据归一化、参数初始化、梯度截断、BN层应用、代码debug、数据清理等，旨在帮助读者有效避免和解决梯度爆炸问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原因1:梯度爆炸

产生原因：学习率过大。

解决方法：
3. 数据归一化（减均值，除方差，或者加入normalization：BN，L2 norm等）。
4. 更换参数初始化方法（对于CNN，一般用xavier或者msra的初始化方法）。
5. 减小学习率，减小Batch size。
6. 加入梯度截断（gradient clipping）。

原因2:网络结构设计问题

解决方法：

加如BN层进行归一化。
修改网络结构（如增加网络宽度、增加网络层数）。
改变层的学习率，每个层都可以设置学习率，可以尝试减小后面层的学习率。

原因3: 不同框架迁移时的代码问题

解决方法：

debug不同框架下产生的代码错误。
不同框架下的函数意义不同，需要准确迁移。

原因4: 数据集的问题

1.可能数据集中存在脏数据。从而导致无法训练的问题。

解决方法：

通过设置batch_size = 1，shuffle = False，一步一步地将sample定位到了所有可能的脏数据，并且删掉。

2.可能是数据集label数量和模型中设置的label数量不一致。

原因5:损失函数设置问题

例子：

在TensorFlow中，如果使用交叉熵：cross_entry = -tf.reduce_sum(tf.log(y_conv))的话，最后softmax输出层的y_conv取值范围在[0,1]中是允许取0的，但是log（0）很有可能会导致NaN的出现。

所以在设置损失函数时要注意细节。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Rocky Ding* 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。