神经网络中网络优化和正则化

任何数学技巧都不能弥补信息的缺失

从大量的实践中总结一些经验方法,从网络优化和正则化两个方面来介绍这些。

常用的优化方法:参数初始化,数据预处理方法,逐层归一化,超参数优化方法。

常用的网络正则化:L1,L2正则化,权重衰减,提前停止,丢弃法,数据增强和标签平滑。

 

网络优化:

包括了模型选择和参数优化,神经网络优化的改善方法,分为以下几个方面。 

  1. 使用更有效的优化算法来提高梯度下降优化方法的效率和稳定性。如动态学习率调整,梯度估计修正等。
  2. 使用更好的参数初始化方法,数据预处理方法来提高优化效率。
  3. 修改网络结构来得到更好的优化地形。如使用Relu激活函数,残差连接,逐层归一化。
  4. 使用更好的超参数优化方法。

1.更有效的优化算法来提高梯度下降优化方法效率

使用小批量梯度随机下降,影响小批量随机梯度下降有三个方面,1).批量大小K  2)学习率\alpha  3)梯度估计。

批量大小

批量大小不影响随机梯度的期望,但会影响随机梯度的方差。批量大小越大,随机梯度的方差越小,引入噪声越小,训练越稳定。因此可以设置较大的学习率。

学习率随着批量大小的增大而增大。

学习率调整

包括学习率衰减,学习率预热,周期性学习率调整以及一些自适应调整学习率方法,如AdaGrad、RMSprop、AdaDelta等

学习率衰减可以有分段常数衰减,指数衰减等等。

学习率预热:当批量大小设置较大时,常常需要设置较大的学习率,但刚开始训练时,参数是初始化的,其梯度也会较大,再加上较大的初始化学习率,就使得训练变得极不稳定。可以在最初几轮迭代时,采用比较小的学习率,等梯度下降到一定的程度后再恢复初始的学习率。称之为学习率预热。

周期型学习率调整:为了使梯度下降法能够逃离鞍点或尖锐最小值。在训练过程中周期性的增大学习率。

AdaGrad:在标准的梯度下降中,每个参数在每次迭代时候都使用了相同的学习率,由于每个参数在每个维度上的收敛速度不同,因此根据不同的收敛情况来调整学习率。

RMSprop算法:同样是一种自适应学习率的方法,区别再去G_t的计算由累计方式变成了指数衰减移动平均, 参数的学习率并不是衰减趋势,而是可以大,可以小的。

梯度估计修正:

动量法(momentum): 计算负梯度的加权移动平均作为参数的更新方向。

Adam算法:可以看作动量法和RMSprop的结合,不但使用动量作为参数更新方向,而且可以使用自适应调整学习率。

梯度截断:

除了梯度消失外,梯度爆炸也是影响学习效率的因素,如果梯度突然增大,用大的梯度更新参数反而会导致其远离最优点,所以当梯度的模大于一定的阈值时,对梯度进行截断,有按值截断、按模截断。

 

参数初始化:

用梯度下降来优化网络参数的时候,参数初始值选取十分关键,参数初始化方法有以下三种:

  1. 预训练初始化参数。
  2. 随机初始化参数:如果参数都设置为0,在第一遍前向计算时,所有的隐藏层神经元的激活值都相同,反向传播的时候,所有权中的更新也相同,导致隐藏层神经元没有区分性,称为对称权重现象:打破这个平衡,选用随机初始化。
  3. 固定值初始化:如门控中 偏置的设置。等等。

随机初始化参数有三种:

1基于固定方差的参数初始化

2基于方差缩放的参数初始化  Xavier初始化, He初始化等

3正交初始化

 

数据预处理:

当计算不同样本之间的欧式距离时,尺度大特征会起到主导作用,对于尺度敏感的模型,必须进行预处理。

归一化:映射到0-1  或者-1,-1之间。

 

 

 

网络正则化:

L1和L2正则化:  通过约束参数的L1和L2范数来减小模型在训练过程中的过拟合现象。

权重衰减:在每次参数更新时引入一个衰减系数。

提前停止:使用一个和训练集独立的样本集合,称为验证集,当验证集上的错误率不再下降时候,就停止迭代。

丢弃法:随机丢弃一部分神经元来避免过拟合,从集成学习的角度来解释:每做一次丢弃,相当于从原始的网络中采样得到一个子网络,每次迭代都相当于训练一个不同的子网络,这些子网络共享原始网络的参数,那么最终网络可以近似看作集成了指数级个不同网络的组合模型。

从贝叶斯角度来解释:丢弃法时一种对参数\theta的采样,

数据增强:CV中较多一些。

标签平滑:给样本的标签引入一些噪声来避免过拟合。

 

 

 

 

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值