神经网络出现NAN的个人见解

最新推荐文章于 2024-07-18 16:06:05 发布

沉香屑_

最新推荐文章于 2024-07-18 16:06:05 发布

阅读量1.9w

点赞数 4

分类专栏： TensorFlow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23142123/article/details/80526931

版权

本文分析了神经网络训练中出现NAN的现象，指出深层网络、大梯度和高学习率可能导致参数异常。建议降低学习率、采用梯度裁剪和数据归一化来防止NAN。通过具体例子展示了学习率如何影响参数更新，强调适当的学习率设置对稳定训练的重要性。

摘要由CSDN通过智能技术生成

出现场景

网络设计为4层LSTM组成的一个RNN，学习率设为0.1，num_units个数为256，出现NAN。当把层数调成2层的时候，没有出现。

原因分析：
网络层数太深，加上RNN内部计算是循环嵌套，从前往后计算，每层的输入逐渐累积；学习率过大；某些batch产生较大的梯度。
经过大梯度、大学习率、深层网络累积的输入，使得网络参数变得异常。
【注】：反向传播的时候，求的是loss function与当前层参数的梯度，此时计算梯度，输入x作为常量，参与到参数的更新。

出现原因

学习率较大，若此时反向传回来的梯度也很大的时候，参数可能会更新的非常大，倘若不幸，飞成Inf，前向传播求loss的时候，会报NAN。解决方法调小学习率。
某些batch的数据产生过大的梯度，解决方法采用梯度裁剪、数据归一化。
数据出错，网络中出现log0、除以0等不正常的操作。
【个人认为1、2是互相依赖的，若梯度很大但学习率比较小的话，参数更新值会因为学习率较小而变小，减少NAN出现的概率；若学习率很大但梯度很小的话，参数更新值应该也不会很大，毕竟学习率一般取值不超过1。3是最常出现的错误，也是最容易理解的原因。】

举例分析

给定输入数据x为(1,1)(2,1),…(1,10)，输出数据/标签y为（3,4,…,12）。通过训练网络求y= w

最低0.47元/天解锁文章

关注

4
点赞
踩
26

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

沉香屑_ CSDN认证博客专家 CSDN认证企业博客

码龄10年

44: 原创

13万+: 周排名

188万+: 总排名

17万+: 访问

: 等级

1900: 积分

30: 粉丝

46: 获赞

20: 评论

231: 收藏

私信

关注

热门文章

分类专栏

自然语言处理 7篇
java 9篇
深度学习 2篇
matlab 1篇
算法 6篇
机器学习 1篇
TensorFlow 17篇
面试 1篇
Python 2篇
爬虫 1篇
pytorch 1篇
脚本 3篇
GIT 1篇
Paddle 1篇

最新评论

神经网络出现NAN的个人见解
万万馒头: 太感谢了，找了好几天的问题，确实是输入数据的问题
Tensorboard报错的解决
Jim175: 我昨天跑出来了，然后今天跑不出来，然后发现是得先activate tf-gp（环境）再打开就好了
神经网络出现NAN的个人见解
风电气象: 已解决：我在归一化的时候，发现某列数据的最大值=最小值（即那列是常数），导致归一化(x-min)/(max-min)的分母为0了，梯度爆炸，也就是博主说的问题三。更换数据后解决。
神经网络出现NAN的个人见解
风电气象: sd
MCMC采样算法理解
Deep Learning小舟: 加油！写的真好。

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。