Delving Deep into Rectifiers

Delving Deep into Rectifiers

2. Approach

2.1. Parametric Rectifiers

Definition
在这里插入图片描述
ai是控制斜率的系数,ai=0时,变成relu,ai是一个可学习的参数,公式(1)等于:
在这里插入图片描述
如果ai是一个小且固定的值,则PReLU则成为LReLU,LReLU是为了避免零梯度,但是在实验中它对精度的影响可以忽略不计。

PReLU引入的额外参数很少, 额外参数数量等于信道总数量,与w相比可以忽略不计。还有一种变体,该系数由一层中的通道共享,每层引入一个额外参数。ai的梯度为:
在这里插入图片描述
在这里插入图片描述
对于信道共享参数的情况,
在这里插入图片描述
更新ai时使用momentum method,
在这里插入图片描述
限制ai的范围使其激活函数是单调的, 初始化为0.25.

数据说明,随着深度额增加,激活逐渐变得更非线性,学习模型往往在早期保存更多的信息, 在更深的阶段变得更有区分性,

2.2. Initialization of Filter Weights for Rectifiers
nl表示第l层xl的维数,在卷积层,有nl=k2c,k为卷积核的边长,c为channel数:
在这里插入图片描述
我们让wl的平均值为0,注意到yl是wl中元素与xl中对应元素的乘积的和,则上式各变量的方差关系可以表示为:
在这里插入图片描述
如果wl在0附近有对称分布,bl=0,所以无论xl的值为多少,则yl具有0均值,且在0附近有对称分布:
在这里插入图片描述
通过激活函数:
在这里插入图片描述
仅正半轴有值,可以得到:
在这里插入图片描述
得到方差表达式:
在这里插入图片描述
考虑 l 层:
在这里插入图片描述
我们希望每一层都有同样的方差,例如方差全部为1,则需要:
在这里插入图片描述
所以可得标准差应该设为:
在这里插入图片描述
在正向传播中, channel数为c,一共有d个filter,但在反向传播中,相当于是channel数为d, 一共有c个filter。
Backward Propagation Case
基于上面的结论,在反向传播中,nl`的值为k2d,同样的推导过程可得std为:
在这里插入图片描述
对于第一层,我们不需要计算Δx1,因为它表示图像域,两种方法都可以使他们收敛。

最后问题,pytorch中,fan_in 为输入维度,fan_out为数出维度。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值