PReLU翻译

最新推荐文章于 2024-01-06 16:37:19 发布

冷夏LX

最新推荐文章于 2024-01-06 16:37:19 发布

阅读量2.6k

点赞数 1

分类专栏：深度模型

本文链接：https://blog.csdn.net/u014119694/article/details/88375400

版权

深度模型专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification

建议移步： https://blog.csdn.net/happynear/article/details/45440811

摘要

整流激活单元(整流器)是最先进的神经网络必不可少的。本文从两个方面研究了用于图像分类的整流神经网络。首先，我们提出了一个参数修正线性单元(PReLU)，它概括了传统的整流单元。PReLU改进了模型拟合，几乎没有额外的计算成本和很少的过拟合风险。其次，我们推导了一个鲁棒初始化方法，特别考虑了整流器的非线性。这种方法使我们能够直接从零开始训练非常深入的修正模型，并研究更深或更广的网络体系结构。基于我们的PReLU网络(PReLU-nets)，我们实现了4.94% ImageNet 2012分类数据集前5名测试错误。这是26%的改善相对ILSVRC 2014年获奖者(GoogLeNet, 6.66%[29])。据我们所知，我们的结果是第一个超过人类水平的表现(5.1%，[22])在这一视觉识别的挑战。

introduction

卷积神经网络(Convolutional neural network, CNNs)[17,16]在识别交通标志[3]、人脸[30,28]、手写数字[3,31]等多个视觉识别任务中，均表现出优于或可与人类媲美的识别精度。在这项工作中，我们提出了一个超越人类水平的结果在1000 类ImageNet数据集
本文从整流器驱动的两个方面研究了神经网络。首先，我们提出了一个新的泛化ReLU，我们称之为参数校正线性单元(PReLU)。该激活函数自适应地学习整流器的参数，提高了精度，而额外的计算成本可以忽略不计。其次，深入研究了修正模型的训练难点。通过对整流器(ReLU/PReLU)的非线性进行显式建模，我们得到了一种理论上合理的初始化方法，该方法有助于直接从无开始训练的非常深的模型(例如，30个权重层)的收敛。这使我们能够更灵活地探索更强大的网络体系结构。

Approach

在这里插入图片描述

在形式上，我们考虑一个定义为:
在这里插入图片描述
其中yi为非线性激活f在第i通道上的输入，ai为控制负部分斜率的系数。ai中的下标i表明，我们允许非线性激活在不同的通道上发生变化。当ai = 0时，为ReLU;当ai是一个可学习的参数时，我们将Eqn.(1)称为参数ReLU (PReLU)。图1显示了ReLU和PReLU的形状。Eqn.(1)等于f(yi) = max(0,yi) + ai min(0,yi)。
如果ai是一个小且固定的值，则PReLU成为
[20]中的漏性ReLU (LReLU) (ai = 0.01)。LReLU的动机是避免零梯度。实验[20]表明，与ReLU相比，LReLU对精度的影响可以忽略不计。相反，我们的方法与整个模型相结合，自适应地学习PReLU参数。我们希望端到端培训将导致更多的专业活动。

整流器滤波器权值的初始化

与传统的类sigmoid激活网络相比，整流器网络更容易训练[8,16,34]。但是一个糟糕的初始化仍然会阻碍高度非线性系统的学习。在本节中，我们提出了一种鲁棒初始化方法，消除了训练极深整流网络的障碍。
近年来，深度神经网络的初始化大多采用高斯分布[16]的随机权值。用固定的标准偏差(如[16]中的0.01)，非常深入的模型(如>8 conv层)收敛困难，VGG team[25]报道，我们在实验中也观察到。为了解决这个问题，在[25]中，他们预先训练了一个有8个conv层的模型来初始化更深层次的模型。但这种策略需要更多的训练时间，也可能导致较差的局部最优。在[29,18]中，辅助分类器被添加到中间层以帮助收敛。
Glorot和Bengio[7]提出采用适当比例的均匀分布进行初始化。这就是所谓的“Xavier”初始化在[14]。它的推导是基于激活是线性的假设。这个假设对于ReLU和PReLU是无效的。
在下面的文章中，我们通过考虑ReLU/PReLU，从理论上推导了一个更合理的初始化。在我们的实验中，我们的初始化方法允许非常深的模型(如30个conv/fc层)收敛，而“Xavier”方法[7]不能。