动手学PyTorch(李沐)8 ---- 数值稳定

数值稳定型

​ 当神经网络很深的实现,数值非常容易不稳定。

  • t 表示层,ht 表示第 t 隐藏层的输出。
  • ht-1 经过 ft 得到 ht隐藏层的输出。
  • ft包含了线性计算和激活函数两步。

y = ℓ ∘ f d ∘ … ∘ f 1 ( x ) y=\ell \circ f_d \circ \ldots \circ f_1(\mathbf{x}) y=fdf1(x)

  • 这里的y不是预测,y包含了损失函数
  • 向量关于向量的导数是一个矩阵,所以 梯度 是d - t次的矩阵乘法

  1. 如果说梯度是大于1的值,且神经网络足够深,就会导致梯度计算出来的结果过大,超出计算范围。
  2. 如果说梯度是介于0 - 1之间的数,当层数足够大是时候,梯度计算的结果过小,近于0。


梯度爆炸与消失

  • 如果梯度过小,那么不论学习率多大,对结果都没有影响。

​ 梯度的反向传播是从顶层开始,一开始是正常的,梯度是乘法,越往深层,梯度越来越小,底部拿到是数就很小,如果底部的层很小,那么不管怎么做学习率,效果提升都是有限的。顶部的层训练很好,但底部的层没效果,本质上与浅层神经网络没有区别。


数值稳定

  • 梯度归一化:如把梯度变为均值为0,方差为1的数。就是不管梯度多大,都拉回来变小。

  • 梯度裁剪:如果梯度超出某个阈值,就将其设定为当前阈值,将梯度强行限制在某个范围内。

如何合理初始化权重和使用激活函数

hi t表示第t层第i个元素是输出。E表示期望,Var表示方差。

在怎样的条件下能够使得正反向的期望为0,正向传播方差为a,反向传播方差为b?

QA:

  1. nan的产生一般是除0,inf的产生一般是过大。解决方法通常是调小学习率和合理初始化权重,选择激活函数。
  2. ReLU的作用是破坏线性联系。
  3. sigmoid可引起梯度消失,但梯度消失不一定是因为sigmoid,ReLU用来替代sigmoid也降低梯度消失概率。
  4. 均值为0,方差为0.01。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值