关闭

论文提要“Delving Deep into Rectifiers”

标签: 深度学习
1680人阅读 评论(0) 收藏 举报
分类:

首先对ReLU进行了改进,使用了参数化的ReLU自适应学习rectifier的参数提升准确率,即PReLU来拟合模型,另外使用了鲁棒的初始化方法考虑rectifier的非线性特性,使得深层网络能够收敛。top-5error 为4.94%,在ILSVRC上首次超越了人眼(感觉这么说还是很牵强的,后面也进行了解释)。

过去几年深度学习的主要关注在构建有效的模型和设计应对过拟合的策略上,通过增加网络复杂度,宽度,小步长,非线性激活和复杂的层设计,网络拟合数据的能力越来越强;另外通过数据增强和大规模数据库的使用使得网络泛化能力得到增强。

方法描述:分别介绍了PReLU,深层rectifier网络的初始化方法以及网络结构。
1. PReLU激活函数如下定义:
这里写图片描述
其中ai 是控制函数负半部分的斜率,ai=0 时即为ReLU,下图为ReLU和PReLU的区别:
这里写图片描述
如果ai 是一个比较固定的较小的值,PReLU就成了 leaky ReLU

优化:PReLU使用后向传播训练,ai 用链式法则求导并用动量方法更新。通过对比实验,PReLU的top-1 error比ReLU有1.2%的提升,第一个卷积层具有较大的系数ai,第一层是类似Gabor的滤波器比如边缘和纹理,这说明滤波器的正负响应都很重要。深层的网络系数逐渐降低,说明网路在低层关注信息的完整性而在高层学习分辨性能。

2.初始化滤波器权值
提出来一种更合理的初始化方法解决深层网络,如VGG的收敛问题,并于“Xavier”进行了对比。
A.前向传播情况
核心思想是分析每层响应的方差,对于卷积层,它的响应是yl=Wlxl+bl,假设Wlxk 相互独立,则:Var[yl]=nlVar[wlxl],l表示某层的索引。假设wl具有零均值,则Var[yl]=nlVar[wl]E[x2l]
若令wl1 为0附近对称分布及bl1=0,则yl1 同样具有零均值并且在零附近对称分布,则E[x2l]=12nlVar[wl]Var[yl1]。将所有层放到一起,则:
Var[yL]=Var[y1](Ll=212nlVar[wl])
好的初始化方法应避免指数降低或放大输入信号,令12nlVar[wl]=1

B.后向传播情况
卷积层的梯度Δxl=Wl^Δyl,假设f(yl)Δxl+1 相互独立,则E[Δyl]=E[Δxl+1]/2=0,及E[(Δyl)2]=Var[Δyl]=12Var[Δxl+1]。则梯度的方差为:
这里写图片描述
将L层放到一起,则:
这里写图片描述
同时令12n^lVar[wl]=1

C.与Xavier初始化的对比
与Xavier的主要区别是着重考虑了rectifier的非线性。下图显示了两种初始化方法在22层网络上的收敛特性,提出的方法error下降更早。
这里写图片描述
文中的方法能使极深网络(27conv,3fc)收敛,而“Xavier”无法使error下降。值得注意的是,深层网络没有带来识别错误率的下降。

3.网络结构
网络的baseline是model A,主要是对VGG-19的修改:(1)第一层滤波器大小为7*7,步长为2,(2)将3个最大特征图上(224,112)的卷积层移到了较小的特征图上(56,28,14),(3)在第一个fc层之前进行4层的SPP。model A并不是一个比VGG-16好的结构,使用A的主要目的是提速,大特征图的卷积时间要比小特征卷积时间长。在4-GPU配置上,每个mini-bath, A:2.6s,VGG:3s。B是比A更深的网络,C是比B更广(滤波器多)的网络。较深的网络可能降低分类准确率,文中选择提升网络的广度。
这里写图片描述

实现细节
A. 训练
缩放输入图后小边长s,对图像进行224*224的采样crop,s[256,512]。训练开始时就使用scale jittering,直接训练深层网络。
B. 测试
使用SPP-net中的“multi-view testing”,在缩放后的全图上使用卷积层,在最后一层获得卷积特征图。在特征图上,每个14*14的窗口使用SPP进行池化。之后使用fc层计算scores,对所有滑动窗的score进行平均,最后对多尺度的结果组合。
C. 多GPU实现
在卷积层上进行数据并行化,在fc层之前进行GPU同步,fc层的fp/bp在单个GPU上实现,即不对fc层的计算进行并行化,主要是fc层的计算时间不长。对于大型的模型,4GPU增速3.8倍,8GPU增速6倍。

实验结果
1.ReLU与PReLU的比较,top-1 error降低1.05%,top-5 error 降低0.23%。
2.Single-model results
Model C效果最好 top-5 error 为5.71%,比之前方法error都低。C比B好说明网络足够深时,广度成为影响识别精度的因素。
这里写图片描述

与人眼的对比
对细粒度的物体识别,机器比人眼好点,如下图所示,我们很难分辨出dog,bird具体的亚种。
这里写图片描述
对于需要上下文理解和高层次先验知识的物体识别,人类具有计算机无法比拟的优势,如下图聚光灯识别:
这里写图片描述

1
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:333475次
    • 积分:5008
    • 等级:
    • 排名:第5660名
    • 原创:172篇
    • 转载:3篇
    • 译文:2篇
    • 评论:192条
    最新评论