pytorch 交叉熵损失 出现nan
最新推荐文章于 2022-08-04 11:10:32 发布
在深度学习中,由于.sqrt()操作可能导致梯度消失或爆炸,从而在训练过程中出现nan损失。问题在于开方运算在反向传播时会使分母可能接近0。解决方法包括避免使用开方或在开方项添加小的正数以防止除以零。例如,通过添加1e-8防止分母为零,或者完全避免开方操作以消除潜在的梯度稳定性问题。

最低0.47元/天 解锁文章
5775

被折叠的 条评论
为什么被折叠?



