10.神经网络与深度学习（九）—梯度消失问题

最新推荐文章于 2024-01-08 12:29:31 发布

quinn1994

最新推荐文章于 2024-01-08 12:29:31 发布

阅读量921

点赞数 1

分类专栏：机器学习神经网络与机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/quinn1994/article/details/79963581

版权

机器学习同时被 2 个专栏收录

24 篇文章 9 订阅

订阅专栏

神经网络与机器学习

16 篇文章 5 订阅

订阅专栏

1）引言

终于开始进入深度学习了，其实深度学习就是多层神经网络训练数据。

2）什么是梯度消失问题？

梯度消失问题实际上是指在隐藏层BP的时候梯度是逐渐变小的。也就是说前面隐藏层的学习速度比后面的隐藏层学习速度小。

3）什么导致了梯度消失

我们先看一个很简单的深度神经网络：每一层只有一个单一的神经元。下图就是三层隐藏层的神经网络：

我们这里先给出代价函数关于第一个隐藏神经元的梯度∂C/∂b1的公式，如下：

我们现在来看一下这个式子是怎么推出来的。

首先假设b1进行了微小的调整Δb1，这样根据激励公式(Δa1=σ(Δz1))我们的第一个隐藏神经元输出也就变化了Δa1。根据带权公式(Δz2=w*Δa1+b)，这会导致第二个隐藏神经元的输入变化了Δz2。而第二个隐藏神经元的输出，根据激励公式(Δa2=σ(Δz2))也就随之变化了Δa2。以此类推，代价函数有C的变化：

现在分析上面的每一个过程，先看第一步Δa1=σ(Δz1)：

这里我们用∂σ(z1)对b1求偏导数，得到公式(116)

接下来，我们看第二步Δz2=w*Δa1+b:

这里我们用∂z2对∂a1求偏导数。下面，我们将公式(116)中的结果带入到公式(118)结果中，得到如下公式(119)：

我们惊喜的发现，这不就是文章开始给的公式前两项吗？

同理，我们将这个5层的神经网络推导完毕，就得到：

我们再将公式右边的Δb1移到左边就得到总的公式。

公式(121)就是代价函数对偏置求偏导的结构表达式。可以看到这个公式中，除了最后一项，前面的都是权重和sigmoid导数求积。我们再回忆一下sigmoid导函数图像：

我们可以看到sigmoid导函数最大值是1/4。再回头看一下公式(121)，这就是说该公式每加一层网络，其速率就下降到1/4。这也就解释了为什么会出现梯度下降问题。

4）梯度激增问题

看到上面的问题，你可能会要想办法解决了。我们现在对公式琢磨琢磨，如果我们让导函数一直是最大(1/4)，然后让w设置为很大，那么我们不就可以让训练速率保持到一个比较大的水平了吗？

说干就干：

我们将网络权重设置为w1=w2=w3=w4=100。
让bj=-100*aj-1,这样zj=100*aj-1-100*aj-1=0,则sigmoid导函数一直保持为1/4。

可是最后我们计算结果发现,所有的项都等于100*1/4=25，出现了梯度激增问题。

PS:

看到教程这里，编者自己有一个疑问，那么如果我们将w1=w2=w3=w4=4呢？那么最后的结果不就是1了吗？我自己的理解是：权重在训练过程中一直是变化的，而且实际上如果训练速度是1的话这个速度是有点感人的。

继续：

为什么会出现这种情况呢？因为中的变量z=w*a+b同样是与w关联的，如果我们加大w的话，那么不可避免的加大了z，那么根据导函数图像，我们的值会指数速度变小。这样就又会出现梯度下降问题。

5）其他的问题

在2010年Glorot和Bengio发表论文表明sigmoid发现证据表明sigmoid 函数的选择会导致训练⽹络的问题。特别地，他们发现sigmoid 函数会导致最终层上的激活函数在训练中会聚集在0，这也导致了学习的缓慢。这只是梯度的不稳定问题，还有其他问题需要我们解决。

希望有志同道合的小伙伴关注我的公众平台，欢迎您的批评指正，共同交流进步。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

quinn1994 CSDN认证博客专家 CSDN认证企业博客

码龄7年

128: 原创

3万+: 周排名

192万+: 总排名

103万+: 访问

: 等级

7154: 积分

493: 粉丝

975: 获赞

266: 评论

4962: 收藏

私信

关注

热门文章

分类专栏

最新评论

elmo驱动器用stm32单片机控制
吃嘛嘛香142: 请问单片机控制驱动器怎么实现，是PC控制单片机来控制驱动器，还是直接单片机控制驱动器
python遗传算法(详解)
zdtgbj: 我为什么完整代码跑不出来
遗传算法关于多目标优化python（详解）
HUST_zxs: （接上一条评论，因为单次评论限制1000字符以内）当然，即使有这两个问题，代码还是可以正常运行，这里其实涉及到了NSGAII的原理了。在父代和子代共同组成的多个帕累托前沿中，NSGAII会先用某些较优的帕累托前沿的全部个体填充新父代，填充到一定程度，再用某个帕累托前沿的部分个体填充新父代，填充至种群数量。实际上，只有当用某个帕累托前沿的部分个体填充新父代时，拥挤距离才真正发挥出筛选个体的作用，也就是说，拥挤距离真正发挥作用的场景其实有限。回到代码，即使拥挤距离相关的计算有错误，这种错误并不影响NSGAII用某些较优的帕累托前沿的全部个体填充新父代的过程，所以种群的进化还是可以得到保证，这种错误产生的不利影响也只是筛选某个帕累托前沿里的个体时，筛选没有那么准而已。用通俗的话说就是，有错误，但是错误不致命，所以代码还是可以正常运行。另外，还有很多细节不完善，会让初学者很困惑： 1. 调用函数时，传递的参数都是list的切片，仔细分析代码会发现，有些地方其实可以直接传递list的名字，而有些地方必须传递list的切片。 2. 注释有误导性，比如sort_by_values函数和fast_non_dominated_sort函数前面的注释，还不如不写。 3. 拥挤距离相关的代码都不够简洁。
遗传算法关于多目标优化python（详解）
HUST_zxs: 仔细学习了这个代码，这个代码其实是求两个目标函数的最大值，但是用matplotlib画图的时候，为了让画图效果和原理讲解里的画法一致（也就是帕累托前沿是第一象限里的曲线），所以取目标函数的相反数，作者没交代清楚这一点。除了评论区提到的130行和132行的问题外，还有两个比较大的问题： 1. 拥挤距离的计算没有意义，因为在crowding_distance函数里，先把输入的front内部的个体按照目标函数1的值从小到大排序，计算出的拥挤距离是目标函数1下的排序后的个体的拥挤距离，再把输入的front内部的个体按照目标函数2的值从小到大排序，计算出的拥挤距离是目标函数2下的排序后的个体的拥挤距离，两种拥挤距离对应的个体顺序不一样，那么两种拥挤距离相加没有意义（也就是129行~132行）。 2. 极其隐蔽的错误，按照拥挤距离筛选个体的操作有误（这个错误是和拥挤距离的计算没有意义相关的一个错误），crowding_distance函数输出的distance其实和输入的front内部的个体的原有顺序没有关联了，而在精英策略里，通过拥挤距离筛选个体时，计算某个front对应的拥挤距离从小到大排序的顺序，再用这个顺序作为索引取出这个front里的个体，并不等价于front里的个体按照其对应的拥挤距离从小到大排序的结果（也就是196行，197行），所以操作有误。
【TeeChart】【msflxgrd】等.ocx怎么在vs2013(mfc)中使用
不过是想你: 博主你好请问还有teechart 8 的ocx文件吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。