Delving Deep into Rectifiers

最新推荐文章于 2020-04-10 17:36:01 发布

qq_43152949

最新推荐文章于 2020-04-10 17:36:01 发布

阅读量281

点赞数

分类专栏：论文

本文链接：https://blog.csdn.net/qq_43152949/article/details/102572391

版权

论文专栏收录该内容

26 篇文章 0 订阅

订阅专栏

Delving Deep into Rectifiers

2. Approach

2.1. Parametric Rectifiers

Definition
在这里插入图片描述
ai是控制斜率的系数，ai=0时，变成relu，ai是一个可学习的参数，公式（1）等于：

如果ai是一个小且固定的值，则PReLU则成为LReLU，LReLU是为了避免零梯度，但是在实验中它对精度的影响可以忽略不计。

PReLU引入的额外参数很少，额外参数数量等于信道总数量，与w相比可以忽略不计。还有一种变体，该系数由一层中的通道共享，每层引入一个额外参数。ai的梯度为：
在这里插入图片描述

对于信道共享参数的情况，

更新ai时使用momentum method，

限制ai的范围使其激活函数是单调的，初始化为0.25.

数据说明，随着深度额增加，激活逐渐变得更非线性，学习模型往往在早期保存更多的信息，在更深的阶段变得更有区分性，

2.2. Initialization of Filter Weights for Rectifiers
nl表示第l层xl的维数，在卷积层，有nl=k2c，k为卷积核的边长，c为channel数：
在这里插入图片描述
我们让wl的平均值为0，注意到yl是wl中元素与xl中对应元素的乘积的和，则上式各变量的方差关系可以表示为：

如果wl在0附近有对称分布，bl=0，所以无论xl的值为多少，则yl具有0均值，且在0附近有对称分布：
在这里插入图片描述
通过激活函数：

仅正半轴有值，可以得到：

得到方差表达式：

考虑 l 层：

我们希望每一层都有同样的方差，例如方差全部为1，则需要：

所以可得标准差应该设为：

在正向传播中， channel数为c，一共有d个filter，但在反向传播中，相当于是channel数为d，一共有c个filter。
Backward Propagation Case
基于上面的结论，在反向传播中，nl`的值为k2d，同样的推导过程可得std为：
在这里插入图片描述
对于第一层，我们不需要计算Δx1，因为它表示图像域，两种方法都可以使他们收敛。

最后问题，pytorch中，fan_in 为输入维度，fan_out为数出维度。

qq_43152949

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Delving Deep into Rectifiers

Delving Deep into Rectifiers2. Approach2.1. Parametric RectifiersDefinitionai是控制斜率的系数，ai=0时，变成relu，ai是一个可学习的参数，公式（1）等于：如果ai是一个小且固定的值，则PReLU则成为LReLU，LReLU是为了避免零梯度，但是在实验中它对精度的影响可以忽略不计。PReLU引入的额外...
复制链接

扫一扫