深度学习训练之卷积核参数初始化（Constant、Random、Xavier、Kaiming）系统详细总结

全息数据

已于 2022-04-22 22:50:29 修改

阅读量1w

点赞数 4

分类专栏：图像分割深度学习文章标签：深度学习图像处理

于 2022-04-22 12:08:47 首次发布

本文链接：https://blog.csdn.net/qq_23022733/article/details/124337655

版权

深度学习同时被 2 个专栏收录

71 篇文章 11 订阅

订阅专栏

图像分割

21 篇文章 3 订阅

订阅专栏

文章目录

1、卷积核Constant参数初始化

就是对前向计算卷积核的参数初始化，Constant就是一个简单的初始化，就是把卷积核的参数设置为常数，API（pytorch）如下：

torch.nn.init.constant_(tensor, val)  # val：自己设置的常数
torch.nn.init.ones_(tensor)  # 设置为1
torch.nn.init.zeros_(tensor)  # 设置为0

2、卷积核参数随机（random）初始化

2.1 随机分布的参数初始化

概率密度函数为 $f (x)$ , 平均值为 $E (x)$ ，方差为 $V a r (x)$
在这里插入图片描述
下面简单推导一下 $E (x)$ ，
$\int_a^b {x} \,{\rm d}x$
$=\frac{x^2}{2}|_a^b$
$=\frac{b^2-a^2}{2}$
平均值 $E(x)=\frac{b^2-a^2}{2 \cdot(b-a)}=(a+b)/2$
API（pytorch）：

torch.nn.init.uniform_(tensor, a=0.0, b=1.0)

2.2 正态分布的参数初始化

在这里插入图片描述
API（pytorch）：

torch.nn.init.normal_(tensor, mean=0.0, std=1.0)

3、卷积核参数Xavier初始化

一句话解释什么是Xavier初始化：输入和输出的feature map的标准差保持一致。
问题来了，为什么要输入和输出的feature map的标准差保持一致？
因为：输入和输出的feature map的标准差保持一致，可以防止过拟合。

下面开始推导Xavier分布的标准差：
假设输入 $X_j$ ，权重为 $W_{i,j}$ ，偏差为 $B_i$ ，所以，输出为：
$Y_i=\sum_{j}^{n_I}{W_{i,j}X_j+B_i}$
其中 $n_I$ 为卷积核输入维度，比如卷积核为 $3 \times 3$ ，输入channel为 $3$ ，则 $n_I=3×3×3$ ，

保证输入和输出的标准差一致，所以，
$Var(Y_i)=Var(\sum_{j}^{n_I}{W_{i,j}X_j})+Var(B_i)$
再设定 $Var(B_i)=0$ ，
则：
$Var(Y_i)=\sum_{j}^{n_I}Var(W_{i,j})Var(X_j)=n_IVar(W_{i,j})Var(X_j)$
因为：
$Var(Y_i)=Var(X_j)$
所以：
$Var(W_{i,j})=\frac{1}{n_I}$
即：Xavier分布的标准差为 ${n_I}$

3.1 基于Xavier的随机参数初始化和正态分布参数初始化

在这里插入图片描述
此推导不难，便不做赘述。

3.2 进阶版的Xavier

前面说的是前向传播，因为进行网络训练时，不能只有前向计算，也要有反向计算，而反向计算的初始化参数也应遵循保持方差一致，所以 $Var(W_{i,j})=\frac{i}{n_O}$ ，取前向计算和反向计算的调和平均数，公式如下：
在这里插入图片描述
同理，反向传播的 $Var(W_{i,j})=\frac{1}{n_O}$ ， $n_O$ 为输出的维度，
再计算前向传播和反向传播的调和平均数为：

Xavier API（pytorch):

torch.nn.init.xavier_normal_(tensor, gain=1.0)

torch.nn.init.xavier_uniform_(tensor, gain=1.0)

4、卷积核参数Kaiming初始化

为什么提出Kaiming初始化？
答：因为在网络训练里有使用到relu激活函数，而relu的激活函数的负半轴为0，所以相应的方差为输入前feature map方差的一半，所以 $Var(W_{i,j})=\frac{2}{n_I}$

具体推导如下：
$Y=\sum relu(Z)\cdot W+b$
因为经过了 $r e l u$ ，所以方差为输入前的一半，所以 $V a r (y) = 2 V a r (r e l u (Z))$
所以： $Var(W)=\frac{2}{n_I}$

4.1 Kaiming初始化与均匀分布、正态分布

在这里插入图片描述

4.2 Kaiming初始化API（pytorch）

torch.nn.init.kaiming_normal_(tensor, a=0,mode='fan_in', nonlinearity='leaky_relu')

torch.nn.init.kaiming_uniform_(tensor, a=0,mode='fan_in', nonlinearity='leaky_relu')

全息数据

关注

4
点赞
踩
35

收藏

觉得还不错? 一键收藏
1
评论
深度学习训练之卷积核参数初始化（Constant、Random、Xavier、Kaiming）系统详细总结

文章目录1、卷积核Constant参数初始化2、卷积核参数随机（random）初始化2.1 随机分布的参数初始化2.2 正态分布的参数初始化3、卷积核参数Xavier初始化1、卷积核Constant参数初始化就是对前向计算卷积核的参数初始化，Constant就是一个简单的初始化，就是把卷积核的参数设置为常数，API（pytorch）如下：torch.nn.init.constant_(tensor, val) # val：自己设置的常数torch.nn.init.ones_(tensor) #
复制链接

扫一扫