梯度消失和梯度爆炸

最新推荐文章于 2020-04-29 14:30:15 发布

流水荡荡

最新推荐文章于 2020-04-29 14:30:15 发布

阅读量195

点赞数

分类专栏：动手学深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/Ypsilanti/article/details/104603228

版权

动手学深度学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

一.梯度消失和梯度爆炸

1.1 梯度消失和梯度爆炸

当神经网络的层数较多时，模型的数值稳定性容易变差。
假设一个层数为L的多层感知机的第l层H(l)的权重参数为W(l)，输出层H(L)的权重参数为W(L)。为了便于讨论，不考虑偏差参数，且设所有隐藏层的激活函数为恒等映射（identity mapping）ϕ(x)=x。给定输入X，多层感知机的第l层的输出H(l)=XW(1)W(2)…W(l)。此时，如果层数l较大，H(l) 的计算可能会出现衰减或爆炸。举个例子，假设输入和所有层的权重参数都是标量，如权重参数为0.2和5，多层感知机的第30层输出为输入X分别与0.2³⁰≈ 1×10^-21（消失）和5³⁰≈9×10²⁰（爆炸）的乘积。当层数较多时，梯度的计算也容易出现消失或爆炸。

1.2考虑环境因素

1.2.1 协变量偏移

这里我们假设，虽然输入的分布可能随时间而改变，但是标记函数，即条件分布P（y∣x）不会改变。例子：一个在冬季部署的物品推荐系统在夏季的物品推荐列表中出现了圣诞礼物。 可以理解为在夏季的物品推荐系统与冬季相比，时间或者说季节发生了变化，导致了夏季推荐圣诞礼物的不合理的现象， 这个现象是由于协变量时间发生了变化造成的。

训练集由照片组成，而测试集只包含卡通。在一个看起来与测试集有着本质不同的数据集上进行训练，而不考虑如何适应新的情况，这是不是一个好主意。不幸的是，这是一个非常常见的陷阱。

1.2.2 标签偏移

当我们认为导致偏移的是标签P（y）上的边缘分布的变化，但类条件分布是不变的P（x∣y）时，就会出现相反的问题。当我们认为y导致x时，标签偏移是一个合理的假设。例子：
病因（要预测的诊断结果）导致症状（观察到的结果）。
训练数据集，数据很少只包含流感p(y)的样本。
而测试数据集有流感p(y)和流感q(y)，其中不变的是流感症状p(x|y)。

1.2.3 概念偏移

另一个相关的问题出现在概念转换中，即标签本身的定义发生变化的情况。
假设一种产品,在不同的地域的语言中可能表达的方式也不一样,但是实际的想表示的产品都一样

流水荡荡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度消失和梯度爆炸

二.梯度消失和梯度爆炸2.1 梯度消失和梯度爆炸当神经网络的层数较多时，模型的数值稳定性容易变差。假设一个层数为L的多层感知机的第l层H(l)的权重参数为W(l)，输出层H(L)的权重参数为W(L)。为了便于讨论，不考虑偏差参数，且设所有隐藏层的激活函数为恒等映射（identity mapping）ϕ(x)=x。给定输入X，多层感知机的第l层的输出H(l)=XW(1)W(2)…W(l)。此时...
复制链接

扫一扫

专栏目录