神经网络中网络优化和正则化

最新推荐文章于 2024-05-01 08:48:29 发布

说好今夜不点烟

最新推荐文章于 2024-05-01 08:48:29 发布

阅读量655

点赞数 1

分类专栏： NLP自然语言处理文章标签：网络优化正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dianyanxia/article/details/107908085

版权

NLP自然语言处理专栏收录该内容

20 篇文章 4 订阅

订阅专栏

任何数学技巧都不能弥补信息的缺失

从大量的实践中总结一些经验方法，从网络优化和正则化两个方面来介绍这些。

常用的优化方法：参数初始化，数据预处理方法，逐层归一化，超参数优化方法。

常用的网络正则化：L1,L2正则化，权重衰减，提前停止，丢弃法，数据增强和标签平滑。

网络优化：

包括了模型选择和参数优化，神经网络优化的改善方法，分为以下几个方面。

使用更有效的优化算法来提高梯度下降优化方法的效率和稳定性。如动态学习率调整，梯度估计修正等。
使用更好的参数初始化方法，数据预处理方法来提高优化效率。
修改网络结构来得到更好的优化地形。如使用Relu激活函数，残差连接，逐层归一化。
使用更好的超参数优化方法。

1.更有效的优化算法来提高梯度下降优化方法效率

使用小批量梯度随机下降，影响小批量随机梯度下降有三个方面，1）.批量大小K 2）学习率 $\alpha$ 3）梯度估计。

批量大小

批量大小不影响随机梯度的期望，但会影响随机梯度的方差。批量大小越大，随机梯度的方差越小，引入噪声越小，训练越稳定。因此可以设置较大的学习率。

学习率随着批量大小的增大而增大。

学习率调整

包括学习率衰减，学习率预热，周期性学习率调整以及一些自适应调整学习率方法，如AdaGrad、RMSprop、AdaDelta等

学习率衰减可以有分段常数衰减，指数衰减等等。

学习率预热：当批量大小设置较大时，常常需要设置较大的学习率，但刚开始训练时，参数是初始化的，其梯度也会较大，再加上较大的初始化学习率，就使得训练变得极不稳定。可以在最初几轮迭代时，采用比较小的学习率，等梯度下降到一定的程度后再恢复初始的学习率。称之为学习率预热。

周期型学习率调整：为了使梯度下降法能够逃离鞍点或尖锐最小值。在训练过程中周期性的增大学习率。

AdaGrad：在标准的梯度下降中，每个参数在每次迭代时候都使用了相同的学习率，由于每个参数在每个维度上的收敛速度不同，因此根据不同的收敛情况来调整学习率。

RMSprop算法：同样是一种自适应学习率的方法，区别再去G_t的计算由累计方式变成了指数衰减移动平均，参数的学习率并不是衰减趋势，而是可以大，可以小的。

梯度估计修正：

动量法(momentum)：计算负梯度的加权移动平均作为参数的更新方向。

Adam算法：可以看作动量法和RMSprop的结合，不但使用动量作为参数更新方向，而且可以使用自适应调整学习率。

梯度截断：

除了梯度消失外，梯度爆炸也是影响学习效率的因素，如果梯度突然增大，用大的梯度更新参数反而会导致其远离最优点，所以当梯度的模大于一定的阈值时，对梯度进行截断，有按值截断、按模截断。

参数初始化：

用梯度下降来优化网络参数的时候，参数初始值选取十分关键，参数初始化方法有以下三种：

预训练初始化参数。
随机初始化参数：如果参数都设置为0，在第一遍前向计算时，所有的隐藏层神经元的激活值都相同，反向传播的时候，所有权中的更新也相同，导致隐藏层神经元没有区分性，称为对称权重现象：打破这个平衡，选用随机初始化。
固定值初始化：如门控中偏置的设置。等等。

随机初始化参数有三种：

1基于固定方差的参数初始化

2基于方差缩放的参数初始化 Xavier初始化， He初始化等

3正交初始化

数据预处理：

当计算不同样本之间的欧式距离时，尺度大特征会起到主导作用，对于尺度敏感的模型，必须进行预处理。

归一化：映射到0-1 或者-1，-1之间。

网络正则化：

L1和L2正则化： 通过约束参数的L1和L2范数来减小模型在训练过程中的过拟合现象。

权重衰减：在每次参数更新时引入一个衰减系数。

提前停止：使用一个和训练集独立的样本集合，称为验证集，当验证集上的错误率不再下降时候，就停止迭代。

丢弃法：随机丢弃一部分神经元来避免过拟合，从集成学习的角度来解释：每做一次丢弃，相当于从原始的网络中采样得到一个子网络，每次迭代都相当于训练一个不同的子网络，这些子网络共享原始网络的参数，那么最终网络可以近似看作集成了指数级个不同网络的组合模型。

从贝叶斯角度来解释：丢弃法时一种对参数 $\theta$ 的采样，

数据增强：CV中较多一些。

标签平滑：给样本的标签引入一些噪声来避免过拟合。

说好今夜不点烟

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。