常见的参数初始化方法

zhurui_xiaozhuzaizai

已于 2024-04-19 16:50:07 修改

阅读量2.3k

点赞数 1

分类专栏：机器学习文章标签：深度学习神经网络 tensorflow

于 2021-04-15 16:00:48 首次发布

本文链接：https://blog.csdn.net/weixin_36378508/article/details/115696113

版权

机器学习专栏收录该内容

31 篇文章 7 订阅

订阅专栏

根据网络结构选择

GRAM-Schmidt
高熵分布
超参搜索
uniform
Gaussian

均值和方差不偏移：

Xavier: 针对sigmoid & tanh
He/Kaiming: 针对relu

我们常见的几种初始化方法是按照“正态分布随机初始化——对应为normal”和按照“均匀分布随机初始化——对应为uniform”，这里就不再多说了，这里介绍几种遇见较少的初始化方法。

1、Glorot初始化方法— Xavier

（1）正态化的Glorot初始化——glorot_normal Glorot
正态分布初始化器，也称为 Xavier 正态分布初始化器。它从以 0 为中心，标准差为 stddev = sqrt(2 / (fan_in + fan_out)) 的截断正态分布中抽取样本，其中 fan_in 是权值张量中的输入单位的数量， fan_out 是权值张量中的输出单位的数量。

在keras和tensorflow均有实现，以keras为例：
keras.initializers.glorot_normal(seed=None)

（2）标准化的Glorot初始化——glorot_uniform
Glorot 均匀分布初始化器，也称为 Xavier 均匀分布初始化器。
它从 [-limit，limit] 中的均匀分布中抽取样本，其中 limit 是 sqrt(6 / (fan_in + fan_out))， fan_in 是权值张量中的输入单位的数量， fan_out
是权值张量中的输出单位的数量。

以keras为例：
keras.initializers.glorot_uniform(seed=None)

（3）Glorot初始化器的缺点
因为Xavier的推导过程是基于几个假设的，
其中一个是激活函数是线性的，这并不适用于ReLU，sigmoid等非线性激活函数；
另一个是激活值关于0对称，这个不适用于sigmoid函数和ReLU函数它们不是关于0对称的。

2、Kaiming初始化

Kaiming初始化，也称之为he初始化，也称之为msra初始化，出自大神何凯明只手。即

Kaiming initializer=he initializer=msra initializer

因为前面讲了Glorot初始化不适合relu激活函数，所以残差网络的作者何凯明在这篇论文中提出了ReLU网络的初始化方法：Kaming初始化。
作者的推导过程针对的其实是卷积网络的前向和反向过程。而为了和Xavier初始化方法保持一致，这里我们还是讨论全连接网络结构。
关于期望、方差的性质，我们已经在Xavier初始化一节介绍过了，这里不再重复。

在Xavier论文中，作者给出的Glorot条件是：
正向传播时，激活值的方差保持不变；反向传播时，关于状态值的梯度的方差保持不变。
这在本文中稍作变换：正向传播时，状态值的方差保持不变；反向传播时，关于激活值的梯度的方差保持不变。

（1）正态化的kaiming初始化——he_normal
He 正态分布初始化器。
它从以 0 为中心，标准差为 stddev = sqrt(2 / fan_in) 的截断正态分布中抽取样本，其中 fan_in是权值张量中的输入单位的数量，在keras中的实现为:
keras.initializers.he_normal(seed=None)
（2）标准化化的kaiming初始化——he_uniform
He 均匀方差缩放初始化器。
它从 [-limit，limit] 中的均匀分布中抽取样本，其中 limit 是 sqrt(6 / fan_in)，其中 fan_in 是权值张量中的输入单位的数量。
keras.initializers.he_uniform(seed=None)

3、lecun初始化—出自大神Lecun之手。

（1）标准化化的kaiming初始化——lecun_uniform
LeCun 均匀初始化器。它从 [-limit，limit]中的均匀分布中抽取样本，其中 limit 是 sqrt(3 / fan_in)， fan_in 是权值张量中的输入单位的数量。
keras.initializers.lecun_uniform(seed=None)

（2）正态化的kaiming初始化——lecun_normal
LeCun 正态分布初始化器。它从以 0 为中心，标准差为 stddev = sqrt(1 / fan_in) 的截断正态分布中抽取样本，其中 fan_in是权值张量中的输入单位的数量。
keras.initializers.lecun_normal(seed=None)

4、Batch Normalization

BN是将输入的数据分布变成高斯分布，这样可以保证每一层神经网络的输入保持相同分布。

优点
随着网络层数的增加，分布逐渐发生偏移，之所以收敛慢，是因为整体分布往非线性函数取值区间的上下限靠近。这会导致反向传播时梯度消失。BN就是通过规范化的手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值0方差1的标准正态分布，使得激活输入值落入非线性函数中比较敏感的区域。可以让梯度变大，学习收敛速度快，能大大加快收敛速度。

Scale and Shift作用
γ和βγ和β是学习到的参数，他们可以让标准正态分布变得更高/更胖和向左右偏移。

三、参数初始化方法的总结

在这里插入图片描述

zhurui_xiaozhuzaizai

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
3
评论
常见的参数初始化方法

根据网络结构选择GRAM-Schmidt高熵分布超参搜索uniformGaussian均值和方差不偏移：Xavier: 针对sigmoidHe/Kaiming: 针对relu我们常见的几种初始化方法是按照“正态分布随机初始化——对应为normal”和按照“均匀分布随机初始化——对应为uniform”，这里就不再多说了，这里介绍几种遇见较少的初始化方法。1、Glorot初始化方法— Xavier（1）正态化的Glorot初始化——glorot_normal Glor
复制链接

扫一扫