李沐-数值稳定(梯度消失和梯度爆炸)

数值稳定性

在这里插入图片描述
数值稳定性的两个问题
在这里插入图片描述
例子:MLP
在这里插入图片描述
梯度爆炸
在这里插入图片描述
梯度爆炸的问题
在这里插入图片描述
更大的梯度的话,由梯度更新会不断变大,最终还是会梯度爆炸

梯度消失

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

模型初始化和激活函数

解决:让训练更加稳定
在这里插入图片描述
让每层的方差是一个常数
在这里插入图片描述
权重初始化
在这里插入图片描述
在这里插入图片描述
例子:MLP
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Xavier初始
在这里插入图片描述
正态分布N,均匀分布U
在这里插入图片描述
在这里插入图片描述
由上可见,激活函数最好是f(x)=x,检查常用的激活函数,一般的如relu就是在0点附近就是0
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

QA

  • 底部:靠数据输入近的那些层
  • nan,inf的产生:nan一般是除以0了,inf就是数值太大了,解决:合理初始化权重,激活函数选取,学习率往小选。
  • 梯度爆炸常是由于数值太大引起的,而不是激活函数的原因,而sigmoid激活函数容易引起梯度消失。
  • 大数定律,一切最后都可以正态分布来解释,正态分布万能
  • 强制使得每一层的输出特征值均值为0,方差为1,并不会损失网络的表达能力,因为数据都是一个区间的值,放大与缩小都可以的。
  • 权重更新都是在每个iteration进行的,一个epoch完成都更新了好多次了
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值