深度学习笔记 —— 数值稳定性 + 模型初始化和激活函数

t:层

h^{t-1}:第t-1层隐藏层的输出

y:要优化的目标函数

这里的h都是一些向量,向量关于向量的导数是一个矩阵,这里做了太多的矩阵乘法,就容易导致梯度爆炸和梯度消失的问题。

 

 

 

因此我们既要避免梯度太大,也要避免梯度太小 

 

归一化:比如说把梯度变为一个均值为0,方差为1的数(把过大的值拉回来)

梯度裁剪:比如说梯度大于5,就变成5,即把梯度限制在一定范围内

 

个人理解:为了将输出和梯度限定在一定范围内,我们从权重初始化和激活函数的选择入手,通过一系列的公式推到,得出不同情况下该怎样进行优化以达到我们的目的 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值