深度学习之参数初始化（二）——Kaiming初始化

最新推荐文章于 2024-08-14 16:45:15 发布

Vic时代

最新推荐文章于 2024-08-14 16:45:15 发布

阅读量3.9w

点赞数 22

分类专栏：深度学习文章标签：深度学习参数初始化 kaiming relu

本文链接：https://blog.csdn.net/VictoriaW/article/details/73166752

版权

本文深入探讨了Kaiming初始化方法，该方法由残差网络的作者提出，特别针对ReLU激活函数。Kaiming初始化保证了在前向和反向传播过程中，状态值和激活值梯度的方差保持不变，从而改善深度学习模型的训练。通过数学推导，展示了如何在全连接网络中应用该初始化策略，确保模型的稳定性和收敛性。

摘要由CSDN通过智能技术生成

Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun.
ICCV 2016.

在介绍Xavier初始化方法的这篇博客的最后，我们提到Xavier初始化方法适用的激活函数有限：关于0对称；线性。而ReLU激活函数并不满足这些条件，实验也可以验证Xavier初始化确实不适用于ReLU激活函数。

Kaiming初始化

残差网络的作者在这篇论文中提出了ReLU网络的初始化方法：Kaming初始化。作者的推导过程针对的其实是卷积网络的前向和反向过程（惊奇地发现自己好像没有推导过卷积网络的梯度表达式）。而为了和Xavier初始化方法保持一致，这里我们还是讨论全连接网络结构。
关于期望、方差的性质，我们已经在Xavier初始化一节介绍过了，这里不再重复。

在Xavier论文中，作者给出的Glorot条件是：正向传播时，激活值的方差保持不变；反向传播时，关于状态值的梯度的方差保持不变。这在本文中稍作变换：正向传播时，状态值的方差保持不变；反向传播时，关于激活值的梯度的方差保持不变。
网络的表达式：

z i = W i h i - 1, (1)

${\bf{z}^i} = W^i {\bf{h}^{i-1}}, \tag 1$

h i = f (z i) . (2)

${\bf{h}^i} = f({\bf z}^i). \tag2$

前向过程

由公式（1）可知：

V a r (z i) = = = n i - 1 V a r (W i h i - 1) n i - 1 [E (W i h i - 1) 2 - (E (W i h i - 1)) 2] n i - 1 [E (W i) 2 E (h i - 1) 2 - (E (W i)) 2 (E (h i - 1)) 2]

$\begin{align} Var(z^i)=&n_{i-1}Var(W^ih^{i-1}) \\ =&n_{i-1}\left[E(W^ih^{i-1})^2- (E(W^ih^{i-1}))^2\right] \\ =&n_{i-1}\left[E(W^i)^2E(h^{i-1})^2 - (E(W^i))^2(E(h^{i-1}))^2 \right] \end{align}$
假设