深度学习 tensorflow relu梯度消失问题

sbchic

已于 2024-04-23 10:56:54 修改

阅读量410

点赞数 7

文章标签：深度学习 tensorflow

于 2023-11-24 16:24:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42453555/article/details/134601277

版权

结论

最后是通过修改初始化函数和添加L2正则化基本解决了，不过偶尔还是会报错

问题现象

loss函数采用交叉熵

使用relu效果更好，但是会出现loss和梯度都变成nan的现象；使用其他激活函数不会出现nan，但是性能不如relu

出现nan的时机：如果inputs比较少，那么在100多个epoch，训练基本已经收敛之后才会nan；但是如果数据比较多（在信号检测里天线数比较大的时候）基本第一个epoch的前几个batch就会nan

可能原因

上网查了相关问题，可能原因和解决方法包括：

脏数据

交叉熵nan

使用了交叉熵做损失函数，所以有可能出现log0的问题 --> 自己写交叉熵，手动加入一个极小量

但是这里有一个新的问题，即把原始数据fetch出来看没有log0，但是在graph里算却log0了，不知道为什么会产生精度差异？解决办法是使用裁剪tf.clip_by_value，把下界调大一点

inputs nan

检查过了，也没有这个问题

梯度爆炸

解决了loss的nan可能后，发现梯度gradients还是会先于loss出现nan。把梯度fetch出来，发现实际上梯度都很小，基本在1e-4以下，所以也排除梯度特别大的情况，那只能认为是梯度太小最后nan

学习率太大

调小了/采用学习率衰减，没有用

过拟合

试了dropout，L2正则化，没用

初始化

说relu适合he初始化，但我觉得应该不是这个原因。因为我不是一开始nan的，而是几乎收敛了之后才nan，所以感觉不是初始化的问题，但是加上这段代码就解决了nan的问题

关注

7
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
深度学习 tensorflow relu梯度消失问题

深度学习梯度nan问题
复制链接

扫一扫

sbchic CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

181万+: 周排名

18万+: 总排名

1418: 访问

: 等级

55: 积分

8: 粉丝

30: 获赞

4: 评论

26: 收藏

私信

关注

热门文章

最新评论

mac matlab2024a 安装cvx报错问题
2301_80342080: 你好我想问一下，我下的时候被要求安装软件是为什么
mac matlab2024a 安装cvx报错问题
DAJ_: 还是不行Testing with a simple model... UNEXPECTED ERROR: ------------ Undefined function 'mexnnz' for input arguments of type 'double'. Error in checkdepconstr (line 97) nnzmatold = mexnnz(AAt); Error in sqlpmain (line 93) checkdepconstr(blk,At,b,y,rmdepconstr); Error in sqlp (line 242) sqlpmain(blk3,At3,C3,b,par,parbarrier3,X03,y0,Z03); Error in cvx_run_solver (line 50) [ varargout{1:nargout} ] = sfunc( inputs{:} ); Error in cvx_sdpt3>solve (line 362) [ obj, xx, y, zz, info ] = cvx_run_solver( @sqlp, blk, Avec, Cvec, b, OPTIONS, 'obj', 'x', 'y', 'z', 'info', settings, 5 ); %#ok Error in cvxprob/solve (line 435) [ x, status, tprec, iters ] = shim.solve( At, b, c, cones, quiet, prec, solv.settings, eargs{:} ); Error in cvx_end (line 88) solve( prob ); Error in cvx_setup (line 213) cvx_end --------------------------
深度学习 tensorflow relu梯度消失问题
十曜九司: 我也遇到这个问题了，还没解决
深度学习 tensorflow relu梯度消失问题
CSDN-Ada助手: 恭喜你开始博客创作！标题看起来非常有深度和专业性。关于深度学习中的relu梯度消失问题，这是一个非常重要且常见的挑战。你的博客将为读者提供宝贵的解决方案和洞见。接下来，我建议你可以进一步探讨其他常见的梯度消失问题，并分享一些实践经验和技巧，以帮助读者更好地应对这些挑战。期待你在下一篇博客中的精彩分享！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

mac matlab2024a 安装cvx报错问题

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。