[论文笔记] Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

本文详细探讨了Kaiming在ICCV15上的研究,介绍了Parametric Rectified Linear Unit(PReLU)和Kaiming初始化方法,这两种技术显著提高了深度学习模型在ImageNet分类任务上的性能。PReLU通过学习激活函数参数改善ReLU的局限,而Kaiming初始化解决了深层网络的收敛问题,使模型训练更快。此外,文章还讨论了模型架构设计的考虑,如使用7x7卷积核和更宽的模型结构。
摘要由CSDN通过智能技术生成

这篇是 Kaiming 大神在 ICCV15 上的工作,其主要工作是提出了 Parametric Rectified Linear Unit(PReLU)和一种新的参数初始化方式(在PyTorch等框架中称为 Kaiming 初始化)。

Approach

Parametric Rectifiers

在 PReLU 之前就存在着一些尝试去改进 ReLU 的工作。比如 LReLU [1] 就将 ReLU 左侧的常数 0 改为斜率非常小的线性区域,而它的 motivation 是试图去避免 zero gradients,它给模型的性能并没有带来什么提升,而且还是牺牲了 hard-zero sparsity,但使得优化的效率得到了提高(加快收敛)。

鉴于这点,PReLU 另外引入参数,即通过 end-to-end 学习的方式来得到有效的激活函数,定义如下:
f ( y i ) = { y i , if    y i > 0 a i y i , if    y i ≤ 0 f(y_i) = \begin{cases} y_i, & \text{if} \; y_i > 0 \\ a_iy_i, & \text{if} \; y_i \leq0 \end{cases} f(yi)={ yi,aiyi,ifyi>0ifyi0
有趣的是,在这篇论文发表的同时,在ICLR15上有一篇论文也提出了一种 learning activation functions 的工作 [2]。

在相同模型结构的情况下,采用 ReLU 的模型(baseline)的 top-1/top-5 error 为 33.82%/13.34%(在 ImageNet 2012上),而采用 PReLU 的 top-1/top-5 erro 为 32.64%/12.75%,有 1.2% 的提升。在实验中,存在着两个有趣的现象,一个是 PReLU 在 conv1 层学出的系数(斜率)为 0.681,这个是远大于原本 ReLU 的常数 0 的。这里作者给的解释是 this is a more economical way of exploiting low-level information。第二个现象是越深的 conv layer,其对应的系数越小(越接近0)。

这里的理解是在 low-layers 上的正负 reponses 都带有比较多的信息,都是被需要的,如果直接采用 hard-zero,就丢弃了负值的 reponses,这里就存在信息损失;但在 deep layers(high-layers)上提取的特征是越来越抽象,并且希望提取的特征是更 discriminative 的(另外一种考虑是能得到 sparse representations [3]),那么就需要激活函数是 more nonlinear 并且存在 hard-zero 的区域(或者是接近 zero)。

Initialization of Filter Weights for Rectifiers

模型权值初始化是一个很重要的问题。在这篇论文之前的一些工作,绝大多数的 CNN 模型的参数随机初始化都是服从高斯分布(标准差固定为 0.01),但这样存在深层网络难以收敛的问题。在后来一些工作中会采用 pre-training 的方式来初始化参数(VGG等),或者是引入辅助分类器(deep supervision等)来帮助模型收敛。

还有一项值得关注的工作是 10年 Glorot 和 Bengio [4] 提出的一种采用 scaled uniform distribution(在 PyTorch框架中称为Xavier初始化)来随机初始化参数,这是区别于之前一些 pre-training 工作的。但它基于的一个假设是激活函数是线性的(在sigmoid, tanh等激活函数中间那段非饱和且近似线性的部分 ),而这样的假设对于 ReLU 和 PReLU 是不成立的。

于是有了这篇论文中的初始化方式,对上面的思路做了一个推广。它的推导过程和 [4] 中差不多的,可以推导出两个比较重要的公式:
V a r [ y L ] = V a r [ y 1 ] ( ∏ l = 2 L 1 2 n l V a r [ w l ] )

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值