深度学习——数值稳定性、模型初始化、激活函数

数值稳定性

随着网络的层数的增加,数值可能变得不稳定

数值稳定性常见的两个问题:

1、梯度消失

2、梯度爆炸

梯度爆炸例子:MLP(多层感知机)

对角矩阵一个主对角线之外的元素皆为0的矩阵

假设我们使用relu函数作为激活函数,所以就是一些1和0的对角矩阵

 

梯度爆炸的问题就是:超出值域变infinity

学习率的调整问题:
梯度消失

梯度消失的问题:梯度值变成0,对16位浮点数尤为严重

训练更稳定方法

训练更稳定的方法就使梯度值在合理范围之内,可使用的方法有合理的权重初始化和激活函数

常用权重初始化的方法

假设权重是一些独立同分布,那么每一个元素的均值就是0,方差就是。那么,这当前层的的输入hi^t-1,就也是独立于我当前层的权重。假设没有激活函数,那

做了这些假设之后,两个独立同分布可以写开,我们的计算就变成了下面这样:

对于正向方差,

对于反向均值和方差,  跟正向情况类似,

均值都是为0的,那么想要让两个方差一样,就需要满足两个条件,但是这两个条件很难同时满足,可以做一点权衡,取折中。-------Xavier初始

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值