- 正则化( Regularization) 是一类通过限制模型复杂度, 从而避免过拟合, 提高泛化能力的方法, 比如引入约束、增加先验、提前停止等,正则化能有效提升模型的范化能力。
- 在传统的机器学习中, 提高泛化能力的方法主要是限制模型复杂度, 比如
采用 ℓ1 和 ℓ2 正则化等方式. 而在训练深度神经网络时, 特别是在过度参数化( Over-Parameterization) 时, ℓ1 和ℓ2 正则化的效果往往不如浅层机器学习模型中显著.过度参数化是指模型参数的数量远远大于训练数据的数量.因此训练深度学习模型时, 往往还会使用其他的正则化方法, 比如数据增强、提前停止、丢弃法、集成法等 - ℓ1 和ℓ2 正则化:ℓ1 和ℓ2 正则化是机器学习中最常用的正则化方法, 通过约束参数的ℓ1 和ℓ2范数来减小模型在训练数据集上的过拟合现象.
正则化就相当于在一个约束条件下优化损失函数(拉格朗日乘数法)。 - 权重衰减:
- 提前停止: 提前停止( Early Stop) 对于深度神经网络来说是一种简单有效的正则化方法.提前停止也可以参见由于深度神经网络的拟合能力非常强, 因此比较容易在训练集上过拟合. 在 第2.2.3.2节.使用梯度下降法进行优化时, 我们可以使用一个和训练集独立的样本集合, 称为验证集( Validation Set), 并用验证集上的错误来代替期望错误.当验证集上的错误率不再下降, 就停止迭代
- **丢弃法:**神经网络使用最多的正则化的方法。
- 数据增强
- 深度神经网络一般都需要大量的训练数据才能获得比较理想的效果. 在数据量有限的情况下, 可以通过数据增强( Data Augmentation) 来增加数据量, 提高模型鲁棒性, 避免过拟合. 目前, 数据增强还主要应用在图像数据上,在文本等其他类型的数据上还没有太好的方法.
- 图像数据的增强主要是通过算法对图像进行转变, 引入噪声等方法来增加 数据的多样性.增强的方法主要有几种:
( 1) 旋转( Rotation): 将图像按顺时针或逆时针方向随机旋转一定角度.
( 2) 翻转( Flip): 将图像沿水平或垂直方法随机翻转一定角度.
( 3) 缩放( Zoom In/Out): 将图像放大或缩小一定比例.
( 4) 平移( Shift): 将图像沿水平或垂直方法平移一定步长.
( 5) 加噪声( Noise): 加入随机噪声. - 标签平滑:在数据增强中, 我们可以给样本特征加入随机噪声来避免过拟合. 同样, 我们也可以给样本的标签引入一定的噪声. 假设训练数据集中有一些样本的标签是被错误标注的, 那么最小化这些样本上的损失函数会导致过拟合. 一种改善的正则化方法是标签平滑( Label Smoothing), 即在输出标签中添加噪声来避免模型过拟合[Szegedy et al., 2016]
神经网络与深度学习-网络正则化
最新推荐文章于 2024-03-17 17:26:37 发布