深度学习网络模型训练--梯度爆炸Nan

最新推荐文章于 2024-07-30 11:45:38 发布

WJ_MeiMei

最新推荐文章于 2024-07-30 11:45:38 发布

阅读量797

点赞数

分类专栏：深度学习论文经验文章标签： Nan loss 网络训练

经验同时被 2 个专栏收录

12 篇文章 2 订阅

订阅专栏

深度学习论文

8 篇文章 3 订阅

订阅专栏

问题

loss值出现 Nan ( 爆炸或者数值非常高 )

原因

训练不收敛
学习率太大
深度网络结构设计有问题
训练集中有脏数据
0做除数
在log 中 0或负数做底----常出现在计算loss函数和激活函数
值越界
池化层中步长比核尺寸大

解决办法

输入数据归一化（减均值，除方差，或者加入normalization，将其转化成0-1之间的数据）
层数较多的情况，各层都做batch_nomorlization
Weights权重使用tf.truncated_normal(0, 0.01, [3,3,1,64])生成
更换参数初始化方法
减小学习率，低于现有学习率1-10倍
减小batch size
循环网络，加入梯度截断 gradient clipping
换激活函数
换loss损失函数

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

WJ_MeiMei CSDN认证博客专家 CSDN认证企业博客

码龄9年

46: 原创

4万+: 周排名

34万+: 总排名

62万+: 访问

: 等级

3721: 积分

131: 粉丝

233: 获赞

114: 评论

1011: 收藏

私信

关注

热门文章

分类专栏

生活 1篇
bug 21篇
环境配置 13篇
测试 7篇
深度学习论文 8篇
源码 7篇
快捷键 2篇
常识 16篇
经验 12篇
work 2篇

最新评论

pytorch查看通道数维数尺寸大小
剧中人: 怎么查看训练集标签的名称呢？
pytorch和torch框架对比（区别联系）
平平淡淡普普通通的一人: 想问博主为啥换赛道了呀，换成什么方向了？
pytorch和torch框架对比（区别联系）
WJ_MeiMei: 理论是可行的，解决办法不记得了，换赛道了，几年没搞深度学习了
pytorch和torch框架对比（区别联系）
JIENANYA: 博主，想请问一下在pycharm中使用torch框架是否可行？因为我在安装pytorch框架时跟着一些博主分享的步骤、命令走之后只成功得到了torch框架（而不是我想要的pytorch）。我也不太懂是哪个环节出了问题当我在Pycharm中使用了torch方法时： [code=python] import torch print(torch.__version__) print(torch.version.cuda) print(torch.backends.cudnn.version()) print(torch.cuda.is_available()) # cuda是否可用； print(torch.cuda.device_count()) # 返回gpu数量； print(torch.cuda.get_device_name(0)) # 返回gpu名字，设备索引默认从0开始； print(torch.cuda.current_device()) # 返回当前设备索引 [/code] 这串代码，都能运行成功。但是看到您这篇文章写的说是pytorch、torch两者编程语言、依赖库、模型和中间变量关系不同。所以我想问在pycharm中调用torch库会不会对普通（普遍的）项目的运行上有很多限制。（比如：联邦学习）
【python】ConnectionRefusedError: [WinError 10061] 由于目标计算机积极拒绝，无法连接
dr_xxy: 请问那个安装命令是在哪个界面输入啊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。