论文提要“Delving Deep into Rectifiers”

首先对ReLU进行了改进,使用了参数化的ReLU自适应学习rectifier的参数提升准确率,即PReLU来拟合模型,另外使用了鲁棒的初始化方法考虑rectifier的非线性特性,使得深层网络能够收敛。top-5error 为4.94%,在ILSVRC上首次超越了人眼(感觉这么说还是很牵强的,后面也进行了解释)。

过去几年深度学习的主要关注在构建有效的模型和设计应对过拟合的策略上,通过增加网络复杂度,宽度,小步长,非线性激活和复杂的层设计,网络拟合数据的能力越来越强;另外通过数据增强和大规模数据库的使用使得网络泛化能力得到增强。

方法描述:分别介绍了PReLU,深层rectifier网络的初始化方法以及网络结构。
1. PReLU激活函数如下定义:
这里写图片描述
其中 ai 是控制函数负半部分的斜率, ai=0 时即为ReLU,下图为ReLU和PReLU的区别:
这里写图片描述
如果 ai 是一个比较固定的较小的值,PReLU就成了 leaky ReLU

优化:PReLU使用后向传播训练, ai 用链式法则求导并用动量方法更新。通过对比实验,PReLU的top-1 error比ReLU有1.2%的提升,第一个卷积层具有较大的系数 ai ,第一层是类似Gabor的滤波器比如边缘和纹理,这说明滤波器的正负响应都很重要。深层的网络系数逐渐降低,说明网路在低层关注信息的完整性而在高层学习分辨性能。

2.初始化滤波器权值
提出来一种更合理的初始化方法解决深层网络,如VGG的收敛问题,并于“Xavier”进行了对比。
A.前向传播情况
核心思想是分析每层响应的方差,对于卷积层,它的响应是 yl=Wlxl+bl ,假设 Wl xk 相互独立,则:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值