深层神经网络难以训练的原因

目录

梯度消失

梯度爆炸

权重矩阵的退化导致模型的有效自由度减少

解决梯度消失的方法

解决梯度爆炸的方法

梯度消失

梯度消失:前面隐藏层的学习速度显著低于后面隐藏层

梯度消失的根本原因:

image.png

梯度爆炸

梯度爆炸的根本原因:当,前面的网络层比后面的网络层梯度变化更快。

权重矩阵的退化导致模型的有效自由度减少

参数空间中学习的退化速度减慢,导致减少了模型的有效维数;有效自由度减少,随着模型深度的增加,退化速度会越来越快,网络会变得敏感。

学习率:大:训练速度加快,精度降低;

            小:精度增加,训练速度减慢

退化学习率:刚开始使用大的学习率加快训练速度,后减小学习率提高精度

解决梯度消失的方法

梯度消失和梯度爆炸问题都是因为网络太深,网络权值更新不稳定造成的,本质上是因为梯度反向传播中的连乘效应。

1.用ReLU、Leaky-ReLU、P-ReLU、R-ReLU、Maxout等替代sigmoid函数。

2.用Batch Normalization。

3.LSTM的结构设计也可以改善RNN中的梯度消失问题。

解决梯度爆炸的方法

1、预训练+微调

2、梯度剪切、权重正则

3、使用不同的激活函数

4、使用残差结构,为模型增加了一个shortcut,这种shortcut可以动态的调整模型的复杂度,类似于LSTM中的门结构。

5、用Batch Normalization。

 

最后如果转载,麻烦留个本文的链接,因为如果读者或我自己发现文章有错误,我会在这里更正,留个本文的链接,防止我暂时的疏漏耽误了他人宝贵的时间。

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值