Self-Normalizing Neural Networks(自归一化神经网络)阅读笔记

Abstarct:

   针对FNNs(feed-forward neural networks)的层数都比较浅的情况,作者提出了SNNs(自标准化神经网络)的概念,SNNs可以使得网络更深,探索高层的抽象特征。另外不像bn的强制每层归一化,SNNs可以自动收敛到均值0方差1,SELUs就是具有自标准化属性的激活函数。 使Banach定点定理,我们证明了这一点激活接近零的平均值和单位方差,即使有噪声和扰动的存在 ,通过许多网络层后值趋向零均值和单位方差.

SNN的收敛性允许
(1)培养具有多层次的深层网络,(2)强化正规化方案,(3)使学习非常强劲。
对于FNN
我们考虑(i)没有规范化的ReLU网络,(ii)批量标准化(BN)(iii)层次标准化,(iv)权重标准化,(v)highway网络和(vi)resnet网络

1.Itroduction:

   为训练更深的CNN网络,为了得到0均值和单位方差,已提出的方法有:
批量标准化(batch normalization)标准化神经元的激活值为零均值和单位方差。
层标准化(layer normalization)也确保零均值和单位方差。Layer Normalization是受
Batch Normalization的启发而来,针对于RNN.
权重标准化(weight normalization)当上一层激活具有零均值和单位方差时确保零均值和单位方差。
(什么是Weight Normalization?
即权重归一化,也就是对权重值进行归一化。

Weight Normalization的优点
1.WN是通过重写深度网络的权重来进行加速的,没有引入对minibatch的依赖,更适合于RNN网络
2.引入更少的噪声
3.不需要额外的空间进行存储minibatch的均值和方差,对时间的开销也小,所以速度会更快)

2. SNNs:

2.1 u,v表示上一层的均值和方差,输入输出对应关系为
y=fwx
wu
定理1:(对于自标准化神经网络)神经网络如果拥有一个自标准化的映射g:Ω→Ω,用于将均值和
方差从一个层映射到下一个层输出值y的均值和方差,并且具有取决于(ω,τ)在Ω内的稳定和吸引的固定点。 此外,平均值和方差保留在域Ω中,即g(Ω)⊆Ω,其中Ω= {(μ,ν)|) μ∈[μmin,μmax],ν∈[νmin,νmax]}。 当迭代应用在映射 g时,Ω内的每个点收敛到固定值点。
       因此,我们认为如果神经网络的激活值的均值和方差在一个预定义的间隔内时,这个网络就完成了标准化。即如果x的均值和方差已经在间隔范围内,那么y的均值和方差保持在这些间隔中,即标准化跨层传递。 在这些间隔范围内,如果映射g被迭代地应用,平均值和方差均收敛于固定点。
     SNNs可以在层传播时保持输出的标准化。
2.2构建自标准化神经网络。
我们的目标是通过调整函数g的性质来构建自标准化神经网络。 g只有两种设计选择:(1)改变激活函数(2)针对权重的改变:权重的初始化。因为从x到y只会受这两种元素影响。
     对于激活函数,作者针对FNN 网络提出“缩放指数线性单位”(SELUs)实现自标准化。 SELU激活函数如下:
selu可以实现SNNs,relu,tanh,Lrelu都不能实现,激活函数必须有以下特点:
(1)用于控制平均值的负值和正值
(2)饱和区域(导数接近零),以减小低层出现较大的方差
(3)大于1的斜率,如果在下层中值太小则增加方差。
(4)激活函数是个连续曲线。 后者方差减少通过方差增加来平衡确保了一个固定点,其中。 我们通过乘以指数线性来满足激活函数的这些属性单位(ELU),λ> 1,以确保正净输入的斜率大于1。
     对于权重初始化,我们对高层的所有单位提出ω= 0和τ= 1设置。 接下来的段落将显示这个初始化的优点。 当然,在学习这些关于权重向量的假设是不合理的。 然而,即使对于未归一化的权重向量也具有自标准化属性(可以证明),因此在学习和权重变化期间可以保持自标准化属性。

2.3推导出平均值和方差映射函数g。
     作者首先假设了输入x之间相互独立,如x1,x2,x3…..相互独立。z=wx则净输入z是独立的但不一定相同分布的加权和,对于其中心极限定理得n(样本数)越大,z更接近正态分布:。。。。。
2.4稳定的和有吸引力的固定点(0,1)用于归一化权重
(u,v)——(0,1)
     作者证明了在w=0,τ= 1,(u,v)——(0,1)的情况下,g是围绕固定点(0,1)收敛的映射。 因此,(0,1)是一个属于映射g的稳定的固定点。
定理二(降低 v)
     该定理的详细证明可以在附录 Section A3 中找到。因此,当映射经过许多层级时,在区间 [3, 16] 内的方差被映射到一个小于 3 的值。
定理三(提高 v)
     该定理的证明可以在附录 Section A3 找到。所有映射 g(Eq. (3)) 的不动点 (μ, ν) 确保了 0.8 =< τ时ν˜>0.16,0.9 =< τ时ν ˜> 0.24。
由定理二和三证明了SELU的主要特性是在方差大时减少方差,在方差小时增加方差。

2.6 应做的处理
a.权重初始化应该为E(w)=0,Var(w)=1/n
由于方差v的值在一定范围内,因此,SNN不会面临梯度消失和爆炸问题。
b.随机的对变量做”α dropout”。这是一种使均值和方差不变的dropout类型。

3.关于实验

论文里给出了实验代码,主要就是三点,对权重的初始化值设定,selu函数,α dropout。
实验未做。。。。。。。主要最近服务器坏了,没法跑呀。。。。

没有更多推荐了,返回首页