深度学习之参数初始化

最新推荐文章于 2024-08-03 20:49:06 发布

Vici__

最新推荐文章于 2024-08-03 20:49:06 发布

阅读量1.8k

点赞数

分类专栏： private

本文链接：https://blog.csdn.net/Vici__/article/details/99428255

版权

private 专栏收录该内容

166 篇文章 14 订阅

订阅专栏

为什么要学习参数初始化？

我们都知道，神经网络模型一般是通过随机梯度下降法来训练模型、学习参数。

我们在使用随机梯度下降法的时候需要先给参数赋初值，那么合理正确地初始化参数，能够影响到算法的收敛性、减小泛化误差等。

如果使用的框架是TensorFlow，那么在看完博客后可以看看下面这篇博客，整理了对变量进行初始化的各种函数API。

下面整理参数初始化的方式时只给出了公式，根据公式套用下篇博客函数来实现代码。

（链接）使用TensorFlow对变量进行初始化

参数初始化的方式：

一、全零初始化 (Zero Initialization)

所谓全零初始化就是把网络中的所有参数都初始化为零，这样做可以使初始化全零时参数的期望和网络稳定时参数的期望一致为零。

但是，这样做之后，网络中不同的神经元的输出一定全部相同，相同输出则导致梯度更新完全一样，那么所有的参数在更新之后仍然是全部相同的，那么也就是说，网络神经元将毫无能力对此作出改变，从而无法训练模型。

二、随机初始化 (Random Initialization)

随机初始化有两种：

正态分布初始化：又称高斯分布初始化，参数从一个固定均值和固定方差的高斯分布进行随机初始化。
$\large W_{i,j}\sim N(\mu,\sigma)$
均匀分布初始化：在一个给定区间 [ -r，r ] 内采用均匀分布来初始化参数。
$\large W_{i,j}\sim U(-r,r)$

三、标准初始化（Standard initialization）

~ 相比于  激活函数，标准初始化方法更适用于  激活函数。

（n为输入，m为输出（下同））

正态分布：
标准正态初始化方法通过对方差乘以一个系数确保每层神经元的输出具有相同的方差，提高训练收敛速度。
$\large W_{i,j}\sim N(0,\sqrt{\frac{1}{n}} )$
均匀分布：
标准均匀初始化方法保证了激活函数的输入值的均值为0，方差为常量 $\frac{1}{3}$ ，和网络的层数和神经元的数量无关。
$\large W_{i,j}\sim U(-\sqrt{\frac{1}{n}},\sqrt{\frac{1}{n}})$

四、Xavier初始化 (Xavier Initialization)

~ 适用于  和  激活函数

正态分布：
$\large W_{i,j}\sim N(0,\sqrt{\frac{2}{n+m}} )$
均匀分布：
$\large W_{i,j}\sim U(-\sqrt{\frac{6}{n+m}},\sqrt{\frac{6}{n+m}})$

五、He初始化 (He Initialization)

~ 更适用于  激活函数

正态分布：
$\large W_{i,j}\sim N(0,\sqrt{\frac{2}{n}})$
均匀分布：
$\large W_{i,j}\sim U(-\sqrt{\frac{6}{n}},\sqrt{\frac{6}{n}})$

六、迁移学习初始化 (Pre-train Initialization)

将 预训练模型的参数 作为新任务上的初始化参数。

七、数据敏感初始化

根据自身任务数据集而特别定制的参数初始化方法。