神经网络的初始化方法总结 | 又名“如何选择合适的初始化方法”

最新推荐文章于 2025-01-02 10:27:08 发布

原创

最新推荐文章于 2025-01-02 10:27:08 发布

· 1.9k 阅读

·

4

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#神经网络 #计算机视觉 #深度学习 #人工智能

前言

本文介绍了为什么初始化很重要，总结了常用的几种初始化方法：全零或等值初始化、正态初始化、均匀初始化、Xavier初始化、He初始化和Pre-trained初始化，并介绍了几个还活跃的初始化方向：数据相关初始化、稀疏权重矩阵和随机正交矩阵初始化。

本文来自公众号CV技术指南的技术总结系列

欢迎关注CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。

为什么初始化很重要

不正确初始化的权重会导致梯度消失或爆炸问题，从而对训练过程产生负面影响。

对于梯度消失问题，权重更新很小，导致收敛速度变慢——这使得损失函数的优化变慢，在最坏的情况下，可能会阻止网络完全收敛。相反，使用过大的权重进行初始化可能会导致在前向传播或反向传播过程中梯度值爆炸。

常见的初始化方法

1. 全零或等值初始化

由于初始化的值全都相同，每个神经元学到的东西也相同，将导致“对称性(Symmetry)”问题。

2. 正态初始化(Normal Initialization)

均值为零，标准差设置一个小值。

这样的做好的好处就是有相同的偏差，权重有正有负。比较合理。

例：2012年AlexNet使用“均值为零、标准差设置为0.01、偏差为1的高斯（正常）噪声进行初始化”的初始化方法。然而，这种正常的随机初始化方法不适用于训练非常深的网络，尤其是那些使用 ReLU激活函数的网络，因为之前提到的梯度消失和爆炸问题。

3. 均匀初始化(Uniform Initialization)

均匀分布的区间通常为【-1/sqrt(fan_in)，1/sqrt(fan_in)】

其中fan_in表示输入神经元的数量，fan_out表示输出神经元的数量。

4. Xavier Initialization

来自论文《Understanding the difficulty of training deep feedforward neural networks》

根据sigmoid函数图像的特点

如果初始化值很小，那么随着层数的传递，方差就会趋于0，此时输入值也变得越来越小，在sigmoid上就是在0附近，接近于线性，失去了非线性。

如果初始值很大，那么随着层数的传递，方差会迅速增加，此时输入值变得很大，而sigmoid在大输入值写倒数趋近于0，反向传播时会遇到梯度消失的问题。

针对这个问题，Xavier 和 Bengio提出了“Xavier”初始化，它在初始化权重时考虑了网络的大小（输入和输出单元的数量）。这种方法通过使权重与前一层中单元数的平方根成反比来确保权重保持在合理的值范围内。

Xavier 的初始化有两种变体。

Xavier Normal：正态分布的均值为0、方差为sqrt( 2/(fan_in + fan_out) )。

Xavier Uniform：均匀分布的区间为【-sqrt( 6/(fan_in + fan_out)) , sqrt( 6/(fan_in + fan_out)) 】。

Xavier 初始化适用于使用tanh、sigmoid为激活函数的网络。

5. He Initialization

来自论文《Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification》

激活函数的选择最终在决定初始化方法的有效性方面发挥着重要作用。激活函数是可微的，并将非线性特性引入神经网络，这对于解决机器学习和深度学习旨在解决的复杂任务至关重要。ReLU和leaky ReLU是常用的激活函数，因为它们对消失/爆炸梯度问题相对鲁棒。

Xavier在tanh函数上表现可以，但对 ReLU 等激活函数效果不好，何凯明引入了一种更鲁棒的权重初始化方法--He Initialization。

He Initialization也有两种变体：

He Normal：正态分布的均值为0、方差为sqrt( 2/fan_in )。

He Uniform：均匀分布的区间为【-sqrt( 6/fan_in) , sqrt(6/fan_in) 】

He Initialization适用于使用ReLU、Leaky ReLU这样的非线性激活函数的网络。

He Initialization和Xavier Initialization 两种方法都使用类似的理论分析：它们为从中提取初始参数的分布找到了很好的方差。该方差适用于所使用的激活函数，并且在不明确考虑分布类型的情况下导出。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。