权重初始化方法

最新推荐文章于 2024-08-17 21:31:40 发布

纸上得来终觉浅～

最新推荐文章于 2024-08-17 21:31:40 发布

阅读量2.2k

点赞数 1

分类专栏：深度学习文章标签：权重初始化

原文链接：https://blog.csdn.net/u012328159/article/details/80025785

版权

深度学习专栏收录该内容

79 篇文章 9 订阅

订阅专栏

在深度学习中，神经网络的权重初始化方法对（weight initialization）对模型的收敛速度和性能有着至关重要的影响。说白了，神经网络其实就是对权重参数w的不停迭代更新，以期达到较好的性能。在深度神经网络中，随着层数的增多，我们在梯度下降的过程中，极易出现梯度消失或者梯度爆炸。因此，对权重w的初始化则显得至关重要，一个好的权重初始化虽然不能完全解决梯度消失和梯度爆炸的问题，但是对于处理这两个问题是有很大的帮助的，并且十分有利于模型性能和收敛速度。在这篇博客中，我们主要讨论四种权重初始化方法：

把w初始化为0
对w随机初始化
Xavier initialization
He initialization

1、把w初始化为0

我们在线性回归，logistics回归的时候，基本上都是把参数初始化为0，我们的模型也能够很好的工作。然后在神经网络中，把w初始化为0是不可以的。这是因为如果把w初始化0，那么每一层的神经元学到的东西都是一样的（输出是一样的），而且在bp的时候，每一层内的神经元也是相同的，因为他们的gradient相同。

我们可以看看cost function是如何变化的：

能够看到代价函数降到0.64（迭代1000次）后，再迭代已经不起什么作用了。

2、对w随机初始化

随机初始化后，cost function随着迭代次数的变化示意图为：

能够看出，cost function的变化是比较正常的。但是随机初始化也有缺点，np.random.randn()其实是一个均值为0，方差为1的高斯分布中采样。当神经网络的层数增多时，会发现越往后面的层的激活函数（使用tanH）的输出值几乎都接近于0，如下图所示：

激活函数输出值接近于0会导致梯度非常接近于0，因此会导致梯度消失。

3、Xavier initialization

Xavier initialization是 Glorot 等人为了解决随机初始化的问题提出来的另一种初始化方法，他们的思想倒也简单，就是尽可能的让输入和输出服从相同的分布，这样就能够避免后面层的激活函数的输出值趋向于0。

来看下Xavier initialization后每层的激活函数输出值的分布：

能够看出，深层的激活函数输出值还是非常漂亮的服从标准高斯分布。虽然Xavier initialization能够很好的 tanH 激活函数，但是对于目前神经网络中最常用的ReLU激活函数，还是无能能力，请看下图：

当达到5，6层后几乎又开始趋向于0，更深层的话很明显又会趋向于0。

4、He initialization

为了解决上面的问题，我们的何恺明大神（关于恺明大神的轶事有兴趣的可以八卦下，哈哈哈，蛮有意思的）提出了一种针对ReLU的初始化方法，一般称作 He initialization。

来看看经过He initialization后，当隐藏层使用ReLU时，激活函数的输出值的分布情况：

效果是比Xavier initialization好很多。现在神经网络中，隐藏层常使用ReLU，权重初始化常用He initialization这种方法。

纸上得来终觉浅～

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
权重初始化方法

在深度学习中，神经网络的权重初始化方法对（weight initialization）对模型的收敛速度和性能有着至关重要的影响。说白了，神经网络其实就是对权重参数w的不停迭代更新，以期达到较好的性能。在深度神经网络中，随着层数的增多，我们在梯度下降的过程中，极易出现梯度消失或者梯度爆炸。因此，对权重w的初始化则显得至关重要，一个好的权重初始化虽然不能完全解决梯度消失和梯度爆炸的问题，但是对于处理这...
复制链接

扫一扫

专栏目录