深度学习论文笔记（MSRA初始化与PReLU）：Surpassing Human-Level Performance on ImageNet Classification

最新推荐文章于 2019-12-10 22:07:48 发布

菜到怀疑人生

最新推荐文章于 2019-12-10 22:07:48 发布

阅读量880

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/99869280

版权

深度学习专栏收录该内容

58 篇文章 32 订阅

订阅专栏

文章目录

主要工作
PReLU激活函数
- PReLU定义
- PReLU中参数的反向传播
MSRA初始化

主要工作

一、提出PReLU激活函数
二、提出适合ReLU与PReLU激活函数的初始化方法MSRA，可有效抵抗梯度消失，训练深度网络

发现了网络的"退化"问题，2016年的时候提出了相应的解决方案——残差结构
PReLU可以解决ReLU带来的神经元"死亡"问题，但有可能牺牲ReLU带来的稀疏性（论文中并未说明PReLU提出的目的，这是我自己的理解）

PReLU激活函数

PReLU定义

在这里插入图片描述

$a_i$ 是学习性参数，论文建议初始时刻将其设置为0.25， $y_i$ 表示第 $i$ 个通道上的值

若同一特征图上所有的通道共享同一个系数 $a_i$ ，则成为 $c h a n n e l$ - $s h a r e$ ，若特征图上不同通道对应不同的系数 $a_i$ ，则称为 $c h a n n e l$ - $w i s e$

相比于权重以及偏差的参数数目而言，PReLU引入的学习性参数数目基本可以忽略不计，整个模型的复杂度提升不大，因此不必过分担心过拟合的问题

PReLU中参数的反向传播

假设已经求出了第n层的第 $l$ 张特征图的误差 $\delta^n_l$ ，特征图上的值为 $y_l^n$ ，对于 $c h a n n e l$ - $w i s e$ 而言，设该特征图的PReLU参数为 $a_l^n$ ，则有
$\frac{\partial cost}{\partial a^n_l}=\sum_{y_l^n}\delta_l^n☉\frac{\partial f(y_l^n)}{\partial a^n_l}$
$\sum_{y_l^n}$ 表示将矩阵上所有的值相加，对于 $c h a n n e l$ - $s h a r e$ 而言，设第 $n$ 层PReLU参数为 $a_n$ ，有 $m$ 张特征图，则有
$\frac{\partial cost}{\partial a_n}=\sum_{l=1}^m\sum_{y_l^n}\delta_l^n☉\frac{\partial f(y_l^n)}{\partial a^n_l}$

MSRA初始化

目的

对于存活的神经元而言，ReLU可以使梯度很好的进行传输，不会出现梯度弥散的现象，但若神经元大规模死亡，此时便会出现梯度消失的现象，整个神经网络的参数几乎无法更新，导致神经网络无法收敛，换句话说，相比于sigmoid函数，ReLU函数只是减少了梯度消失，但仍然可能出现梯度消失的情况，为了缓解ReLU带来的梯度弥散问题，我们有了MSRA初始化

前向传播

假设

1、卷积核的参数独立同分布，均值为0，概率密度函数为偶函数
2、卷积核的输入独立同分布
3、卷积核的输入与卷积核的参数相互独立

推导

以下推导假设第 $l$ 层一个卷积核的大小为 $n_l$ ，第 $l$ 层一个卷积操作可以表示为
$\begin{aligned} Y_l=W_lX_l+b_l \end{aligned}$
其中， $X_l$ 是一个 $k_l^2c_l*1$ 的向量， $k_l*k_l$ 表示第 $l$ 层卷积大小， $c_l$ 表示第 $l$ 层通道个数，则有 $n_l=k_l^2c_l$ ， $W_l$ 是一个 $d_l*n_l$ 的矩阵， $d_l$ 表示第 $l$ 层卷积核的个数，每行表示一个卷积，使用 $y_l$ 表示 $Y_l$ 向量中的第 $l$ 维度的值， $w_{ln}$ 表示第 $l$ 行，第 $n$ 列元素的值， $x_{ln}$ 表示 $x_l$ 中第n维的元素，依据下述假设：

1、卷积核的参数独立同分布
2、卷积核的输入独立同分布
3、卷积核的输入与卷积核中的值相互独立

则有
$\begin{aligned} Var(y_l)&=Var(w_{l1}x_{l1}+w_{l2}x_{l2}+.....+w_{ln_l}x_{ln_l}+b_l)\\ &=Var(w_{l1}x_{l1})+Var(w_{l2}x_{l2})+.....+Var(w_{ln_l}x_{ln_l})\\ &=n_lVar(w_lx_l) \tag{式1.0} \end{aligned}$

其中， $w_l$ 表示卷积核中值的随机变量， $x_l$ 表示输入值的随机变量， $y_l$ 表示输出值的随机变量

对于期望与方差，我们有下列计算公式
$\begin{aligned} Var(x)=&E(x^2)-E(x)^2\\ E(AB)=&E(A)E(B) \end{aligned}$
基于上述性质，对于相互独立的随机变量x、y，我们有
$\begin{aligned} Var(xy)=&E(x^2)E(y^2)-E(x)^2E(y)^2\\ =&[Var(x)+E(x)^2][Var(y)+E(y)^2]-E(x)^2E(y)^2\\ =&Var(x)Var(y)+Var(y)E(x)^2+Var(x)E(y)^2\\ =&Var(y)E(x)^2+Var(x)E(y^2) \end{aligned}\tag{式1.1}$

基于式1.1，式1.0可变为
$\begin{aligned} Var (y_l)=&n_l Var(w_lx_l)\\ =&n_l[Var(x_l)E(w_l)^2+Var(w_l)E(x_l^2)] \end{aligned}\tag{式1.2}$
假设 $w_L$ 的均值为0，则式1.2变为
$Var (y_l)=n_l Var(w_lx_l)=n_lVar(w_l)E(x_l^2)（式1.3）$
在卷积神经网络中，假设使用ReLu激活函数，有
$x_l=max(0,y_{l-1})$

我们先引入下列定理：

假设随机变量x的概率密度函数为g(x)，则x的复合函数f(x)的均值为
$E(f(x))=\int_{-\infty}^{+\infty}f(x)g(x)dx$

依据下述假设

卷积核的参数均值为0，概率密度函数为偶函数

令 $b_l$ =0，由于

$y_l=w_lx_l$
$E[y_l]=E[w_lx_l]=E[w_l]E[x_l]=0$
$f(y_l)=\int_{-\infty}^{+\infty}\frac{1}{|x_{l}|}f(\frac{y_l}{x_l})f(x_l)dx_l=\int_{-\infty}^{+\infty}\frac{1}{|x_{l}|}f(w_l)f(x_l)dx_l$
$f(-y_l)=\int_{-\infty}^{+\infty}\frac{1}{|x_{l}|}f(\frac{-y_l}{x_l})f(x_l)dx_l=\int_{-\infty}^{+\infty}\frac{1}{|x_{l}|}f(w_l)f(x_l)dx_l$

则 $y_l$ 均值也为0，概率密度函数也为偶函数。

设 $Z(y_{l-1})=x_l^2=[max(0,y_{l-1})]^2$ ，随机变量 $y_{l-1}$ 的概率密度函数为 $f(y_{l-1})$ ，则有
$\begin{aligned} E(Z(y_{l-1}))=E(x_l^2)&=\int_{-\infty}^{+\infty}[max(0,y_{l-1})]^2f(y_{l-1})dy_{l-1}\\ &=\int_{-\infty}^{0}[max(0,y_{l-1})]^2f(y_{l-1})dy_{l-1}+\int_{0}^{+\infty}[max(0,y_{l-1})]^2f(y_{l-1})dy_{l-1}\\ &=\int_{0}^{+\infty}[max(0,y_{l-1})]^2f(y_{l-1})dy_{l-1}\\ &=\int_{0}^{+\infty}y_{l-1}^2f(y_{l-1})dy_{l-1} \end{aligned}$

$\begin{aligned} Var(y_{l-1})=&\int_{-\infty}^{+\infty}y_{l-1}^2f(y_{l-1})dy_{l-1}\\ =&\int_{-\infty}^{0}y_{l-1}^2f(y_{l-1})dy_{l-1}+\int_{0}^{+\infty}y_{l-1}^2f(y_{l-1})dy_{l-1}\\ =&2\int_{0}^{+\infty}y_{l-1}^2f(y_{l-1})dy_{l-1}\\ \\&(y_{l-1}^2f(y_{l-1})是偶函数) \end{aligned}$

所以有
$E(x_l^2)=\frac{1}{2}Var(y_{l-1})$
将其代入式1.3，则有
$(y_l)=n_l Var(w_lx_l)=\frac{1}{2}n_lVar(w_l)Var(y_{l-1})$

为了让 $l$ 层与 $l - 1$ 层的输出方差一致，即 $Var(y_l)=Var(y_{l-1})$ ，则有
$Var(w_l)=\frac{2}{n_l}\tag{式1.3}$

反向传播

若使用 $\Delta x^c_l$ 表示第 $l$ 层特征图的通道方向的误差，若通道数为 $c_l$ ，则 $\Delta x^{c_l}_l$ 是一个 $c_l*1$ 的向量，设第 $l$ 层卷积核的空间分辨率为 $k_l*k_l$ ，使用 $\Delta y_l$ 表示第 $l$ 层卷积后输出的 $k_l*k_l$ 像素的误差，若通道数为 $d_l$ ，设 $\hat n=k_l^2d_l$ ，则 $\hat w_l$ 是一个 $c*\hat n$ 的矩阵， $\Delta y_l$ 是一个 $\hat n*1$ 的向量，则有
$\Delta x^c_l=\hat w_l\Delta y_l \tag{式2.0}$
(上述式子我推不出来，若有哪位同学推出来了，望告知我，不胜感激)

假设与推导

1、第 $l$ 层卷积核的参数 $w_l$ 与第 $l$ 层特征图卷积后输出的 $k * k$ 像素的误差 $\Delta y_l$ 相互独立
2、第 $l$ 层卷积核的参数 $w_l$ 服从均值为0的对称分布
3、第 $l + 1$ 层输入的导数 $f'(y_l)$ 与第 $l + 1$ 层的误差 $\Delta x_{l+1}$ 相互独立
4、第 $l$ 层的误差 $\Delta x_{l+1}$ 独立同分布

依据上述假设以及式2.0，我们有

$E(\Delta x_l)=E(\Delta x^c_l)=E(\hat w_l \Delta y_l)=E(\hat w_l)E(\Delta y_l)=0\\$
$f(\Delta x_l)=\int_{-\infty}^{+\infty}\frac{1}{|\Delta y_{l}|}f(\frac{\Delta x_l}{ \Delta y_l})f(\Delta y_l)dy_l=\int_{-\infty}^{+\infty}\frac{1}{|\Delta y_{l}|}f(\hat w_l)f(\Delta y_l)d\Delta y_l$
$f(-\Delta x_l)=\int_{-\infty}^{+\infty}\frac{1}{|\Delta y_{l}|}f(\frac{-\Delta x_l}{ \Delta y_l})f(\Delta y_l)dy_l=\int_{-\infty}^{+\infty}\frac{1}{|\Delta y_{l}|}f(\hat w_l)f(\Delta y_l)d\Delta y_l$

因此， $\Delta x_l$ 也为服从均值为0的对称分布

由于 $\Delta y_l=f'(y_l)\Delta x_{l+1}$ ，则有

$E(\Delta y_l)=E(f'(y_l)\Delta x_{l+1})=E(f'(y_l))E(\Delta x_{l+1})=0$
$\begin{aligned} Var(\Delta y_l)=E[(\Delta y_l)^2]=&\int_{-\infty}^{+\infty}(f'(y_l)\Delta x_{l+1})^2g(\Delta x_{l+1})d(\Delta x_{l+1})\\ =&\int_{0}^{+\infty}(\Delta x_{l+1})^2g(\Delta x_{l+1})d(\Delta x_{l+1})\\ =&\frac{1}{2} Var(\Delta x_{l+1}) \end{aligned}$

因此有
$Var(\Delta x_l)=Var(\Delta x_l^c)=\hat n_lVar(\hat w)Var(\Delta y_l)=\frac{1}{2}\hat n_l Var(\hat w)Var(\Delta x_{l+1})$

为了让 $l + 1$ 层与 $l$ 层的梯度一致，则有
$Var(w_l)=\frac{2}{\hat n_l}\tag{式2.1}$

与式1.3不同的地方在于式1.3中的 $n_l$ 是第 $l - 1$ 层特征图的个数，而 $\hat n_{l}$ 是第 $l$ 层的特征图的个数

MSRA初始化

MSRA初始化时，只会单独使用式2.1或是式1.3，如果单独使用式2.1，设第 $l$ 层的特征图数目为 $d_l$ ，对于前向传播而言，则有
$(y_L)=Var(y_{1})\prod_{l=2}^{L}\frac{1}{2}n_lVar(w_l)=Var(y_{1})\prod_{l=2}^{L}\frac{n_l}{\hat n_l}=\frac{d_1}{d_L}Var(y_1)$
一般来说，第一层与最后一层卷积核的卷积核个数相差基本不大（至少对于凯明老师的一些网络来说，是这样），因此，单独使用式2.1，并不会导致前向传播的信息大规模的衰减，对于式1.3，同理

由于权重应该服从对称分布，因此我们将其初始化为均值为0的高斯分布

为什么以方差作为分析工具

可以看到，不论是MSRA初始化还是Xavier初始化，均以方差相等来进行分析，这是为什么呢？以下为本人的猜测。
使用方差作为分析工具，应该是假定了梯度本身服从均值为0的正态分布，若把梯度看成是无限个随机事件叠加的结果，依据中心极限定理，梯度应该服从正态分布，均值为0我暂时想不到咋回事，而xavier初始化的论文中，也贴出了梯度的归一化直方图，大致上的确为均值为0的正态分布，而正态分布的方差越小，概率密度函数越高瘦，梯度取值为0的概率越大，若不同层的方差一致，则不会出现反向传播越靠后的层，梯度为0的概率越大的情况

菜到怀疑人生

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度学习论文笔记（MSRA初始化与PReLU）：Surpassing Human-Level Performance on ImageNet Classification

文章目录主要工作PReLU激活函数PReLU定义PReLU中参数的优化主要工作一、提出PReLU激活函数二、提出适合ReLU与PReLU激活函数的初始化方法MSRA，可有效抵抗梯度消失，训练深度网络发现了网络的"退化"问题，2016年的时候提出了相应的解决方案——残差结构值得注意的是，论文里并没有说明PReLU是为了解决ReLU带来的神经元"死亡"问题，ReLU论文中说过神经网络泛化能力...
复制链接

扫一扫

专栏目录