[论文笔记] Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

Alexzhuan

于 2020-08-16 00:24:47 发布

阅读量1.3k

点赞数

分类专栏： DL 文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/qq_37524214/article/details/108022803

版权

本文详细探讨了Kaiming在ICCV15上的研究，介绍了Parametric Rectified Linear Unit（PReLU）和Kaiming初始化方法，这两种技术显著提高了深度学习模型在ImageNet分类任务上的性能。PReLU通过学习激活函数参数改善ReLU的局限，而Kaiming初始化解决了深层网络的收敛问题，使模型训练更快。此外，文章还讨论了模型架构设计的考虑，如使用7x7卷积核和更宽的模型结构。

摘要由CSDN通过智能技术生成

这篇是 Kaiming 大神在 ICCV15 上的工作，其主要工作是提出了 Parametric Rectified Linear Unit（PReLU）和一种新的参数初始化方式（在PyTorch等框架中称为 Kaiming 初始化）。

Approach

Parametric Rectifiers

在 PReLU 之前就存在着一些尝试去改进 ReLU 的工作。比如 LReLU [1] 就将 ReLU 左侧的常数 0 改为斜率非常小的线性区域，而它的 motivation 是试图去避免 zero gradients，它给模型的性能并没有带来什么提升，而且还是牺牲了 hard-zero sparsity，但使得优化的效率得到了提高（加快收敛）。

鉴于这点，PReLU 另外引入参数，即通过 end-to-end 学习的方式来得到有效的激活函数，定义如下：
$f(y_i) = \begin{cases} y_i, & \text{if} \; y_i > 0 \\ a_iy_i, & \text{if} \; y_i \leq0 \end{cases}$
有趣的是，在这篇论文发表的同时，在ICLR15上有一篇论文也提出了一种 learning activation functions 的工作 [2]。

在相同模型结构的情况下，采用 ReLU 的模型（baseline）的 top-1/top-5 error 为 33.82%/13.34%（在 ImageNet 2012上），而采用 PReLU 的 top-1/top-5 erro 为 32.64%/12.75%，有 1.2% 的提升。在实验中，存在着两个有趣的现象，一个是 PReLU 在 conv1 层学出的系数（斜率）为 0.681，这个是远大于原本 ReLU 的常数 0 的。这里作者给的解释是 this is a more economical way of exploiting low-level information。第二个现象是越深的 conv layer，其对应的系数越小（越接近0）。

这里的理解是在 low-layers 上的正负 reponses 都带有比较多的信息，都是被需要的，如果直接采用 hard-zero，就丢弃了负值的 reponses，这里就存在信息损失；但在 deep layers（high-layers）上提取的特征是越来越抽象，并且希望提取的特征是更 discriminative 的（另外一种考虑是能得到 sparse representations [3]），那么就需要激活函数是 more nonlinear 并且存在 hard-zero 的区域（或者是接近 zero）。

Initialization of Filter Weights for Rectifiers

模型权值初始化是一个很重要的问题。在这篇论文之前的一些工作，绝大多数的 CNN 模型的参数随机初始化都是服从高斯分布（标准差固定为 0.01），但这样存在深层网络难以收敛的问题。在后来一些工作中会采用 pre-training 的方式来初始化参数（VGG等），或者是引入辅助分类器（deep supervision等）来帮助模型收敛。

还有一项值得关注的工作是 10年 Glorot 和 Bengio [4] 提出的一种采用 scaled uniform distribution（在 PyTorch框架中称为Xavier初始化）来随机初始化参数，这是区别于之前一些 pre-training 工作的。但它基于的一个假设是激活函数是线性的（在sigmoid, tanh等激活函数中间那段非饱和且近似线性的部分），而这样的假设对于 ReLU 和 PReLU 是不成立的。

于是有了这篇论文中的初始化方式，对上面的思路做了一个推广。它的推导过程和 [4] 中差不多的，可以推导出两个比较重要的公式：