CNN感性认识（三）——为什么深层次神经网络难于训练？

最新推荐文章于 2024-08-14 09:54:25 发布

天岚1993_量产机

最新推荐文章于 2024-08-14 09:54:25 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签：神经网络梯度爆炸梯度消失

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

参考资料：http://neuralnetworksanddeeplearning.com/chap5.html

这里写图片描述

深度网络中不同层次的神经元的学习速度是不同的。用梯度下降法学习，存在固有过的不稳定性，这种不稳定性导致网络在前面或后面的层次在训练中停滞。

比如，如果我们设计一个每层只有一个神经元的网络：

这里写图片描述

在反向传播时，前面层次的梯度由后面层次的权重和导数累乘得到。

sigmoid的导数图像如下：
这里写图片描述
函数的顶点在0.25处。
初始化时，如果按照常规的正态分布从0到1中随机选取权重的方法，权重的绝对值大都小于1.
这样，经过累乘，梯度反向传播到前面的层次时就已经很小了，这就出现了梯度消失现象。
这里写图片描述

如果我们针对这个现象采取权宜之计：
将权重初始化得大一点，初始化b使得激活函数的导数不要太小。
但是大权重的累乘会造成梯度爆炸现象 ，而取得一个恰到好处的值是非常困难的。

只要是sigmoid激活函数构造的神经网络都会造成梯度更新时的不稳定，遇到梯度爆炸或者梯度消失的问题。

用ReLU代替sigmoid可以有效缓解梯度爆炸/梯度消失问题。

天岚1993_量产机

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

天岚1993_量产机 CSDN认证博客专家 CSDN认证企业博客

码龄9年

30: 原创

110万+: 周排名

124万+: 总排名

17万+: 访问

: 等级

1297: 积分

92: 粉丝

107: 获赞

24: 评论

235: 收藏

私信

关注

热门文章

分类专栏

最新评论

经典的数1问题
Hodery: 这个题目就是从1开始的
nvidia-smi 命令解读
Uylee: 你好我想问一下我输入nvidia-smi后下面process直接是空的要怎么处理呀也没说no process
经典的数1问题
djdjssss: 大佬的代码是不是存在一点问题，如果cal0(0)你的代码是不会进入循环的，最后的返回值时0，应该是1
经典的数1问题
夜阑oRZ: 大佬写的很清楚！！！
CNN通识教育：GoogLeNet
yangliuly1: Hi，我想问下：1.文中用稠密结构表示稀疏结构有助于提升网络的性能，这个稠密结构是指1x1,3x3,5x5..的并联结构吗？2.文中卷积视觉网络可以近似的最优局部稀疏结构，并且该结构可以利用现有的密度矩阵计算硬件实现，这里稠密结构，是能用硬件加速吗，怎么加速的？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。