（二）深度学习基础 -- 7 数值稳定性和模型初始化

最新推荐文章于 2024-04-25 16:40:35 发布

Fiona-Dong

最新推荐文章于 2024-04-25 16:40:35 发布

阅读量429

点赞数

分类专栏：动手学深度学习-TF2.0（读书笔记）

原文链接：https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/#/chapter03_DL-basics/3.15_numerical-stability-and-init

版权

动手学深度学习-TF2.0（读书笔记）专栏收录该内容

45 篇文章 13 订阅

订阅专栏

7. 数值稳定性和模型初始化

7.1 数值稳定性

深度学习模型有关数值稳定性的典型问题是：梯度消失（gradient vanishing）和梯度爆炸（gradient exploding）。

当神经网络的层数较多时，模型的数值稳定性容易变差。

假设一个层数为 $L$ 的多层感知机的第 $l$ 层 $\boldsymbol{H}^{(l)}$ 的权重参数为 $\boldsymbol{W}^{(l)}$ ，输出层 $\boldsymbol{H}^{(L)}$ 的权重参数为 $\boldsymbol{W}^{(L)}$ 。
不考虑偏差参数，设所有隐藏层的激活函数为恒等映射（identity mapping）： $\phi(x) = x$ 。

在数学中，恒等函数（也称恒等关系/恒等映射/恒等变换）是始终返回与其参数相同的值的函数。即，对于f是恒等式，对所有x都有等式 f(x)=x 。

给定输入 $\boldsymbol{X}$ ，多层感知机的第 $l$ 层的输出 $\boldsymbol{H}^{(l)} = \boldsymbol{X} \boldsymbol{W}^{(1)} \boldsymbol{W}^{(2)} \ldots \boldsymbol{W}^{(l)}$ 。
此时，如果层数 $l$ 较大， $\boldsymbol{H}^{(l)}$ 的计算可能会出现梯度消失或梯度爆炸。

详细来说，假设输入和所有层的权重参数都是标量，权重参数为0.2和5，则多层感知机的第30层输出为：
输入 $\boldsymbol{X}$ 与 $0.2^{30} \approx 1 \times 10^{-21}$ （梯度消失）的乘积，或输入 $\boldsymbol{X}$ 与 $5^{30} \approx 9 \times 10^{20}$ （梯度爆炸）的乘积。

类似地，当层数较多时，梯度的计算也更容易出现梯度消失或梯度爆炸。

7.2 模型初始化

在神经网络中，需要随机初始化模型参数，具体原因如下：

回顾（二）深度学习基础 – 3 小节，下图所示的多层感知机。

假设输出层只保留一个输出单元 $o_1$ （删去 $o_2$ 和 $o_3$ 以及指向它们的箭头），且隐藏层使用相同的激活函数，如果将每个隐藏单元的参数都初始化为相等的值，那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值，并传递至输出层。在反向传播中，每个隐藏单元的参数梯度值相等。因此，这些参数在使用基于梯度的优化算法迭代后值依然相等。之后的迭代也是如此。在这种情况下，无论隐藏单元有多少，隐藏层本质上只有1个隐藏单元在发挥作用。

因此，通常将神经网络的模型参数，特别是权重参数，进行随机初始化。

多层感知机

Tensorflow2.0的默认随机初始化：
Tensorflow中initializers的模块参数都采取了较为合理的初始化策略。
不同类型的layer采用的初始化方法，参看源码。

参考

《动手学深度学习》(TF2.0版)

Fiona-Dong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（二）深度学习基础 -- 7 数值稳定性和模型初始化

7. 正在前几节中，使用了小批量随机梯度下降的优化算法来训练模型。实现中，只提供了模型的正向传播（7.1 正向传播7.1.1 正向传播的定义正向传播，是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量（包括输出）。具体举例如下：...
复制链接

扫一扫