深度学习中的正则化

最新推荐文章于 2024-05-10 15:43:55 发布

john_heng

最新推荐文章于 2024-05-10 15:43:55 发布

阅读量436

点赞数

分类专栏： machine learning 文章标签：ｄｅep learning

machine learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在训练深度框架时会出现训练集表现优秀，但测试集却很差。此时很可能出现过拟合了，解决过拟合问题一般采取一些正则化步骤。本文中，我们将详细介绍几种常用的正则化方法，本文是基于该文章总结的。

１．什么是正则化

如上图所示，刚开始的时候，模型还不能很好地拟合所有数据点，即无法反映数据分布，这时它是欠拟合的。而随着训练次数增多，它慢慢找出了数据的模式，能在尽可能多地拟合数据点的同时反映数据趋势，这时它是一个性能较好的模型。在这基础上，如果我们继续训练，那模型就会进一步挖掘训练数据中的细节和噪声，为了拟合所有数据点“不择手段”，这时它就过拟合了。

从左往右看，模型的复杂度逐渐提高，在训练集上的预测错误逐渐减少，但它在测试集上的错误率却呈现一条下凸曲线。

结论就是：网络有多复杂，过拟合就有多容易。为了使模型在拟合数据的同时更具推广性，我们可以用正则化对学习算法做一些细微修改，从而提高模型的整体性能。

２．　正则化和过拟合

过拟合和神经网络的设计密切相关，因此我们先来看一个过拟合的神经网络：

上图中带箭头的线实际上都带有权重，而神经元是储存输入输出的地方。为了公平起见，也就是为了防止网络在优化方向上过于放飞自我，这里我们还需要加入一个先验——正则化惩罚项，用来惩罚神经元的加权矩阵。

如果我们设的正则化系数很大，导致一些加权矩阵的值几乎为零——那最后我们得到的是一个更简单的线性网络，它很可能是欠拟合的。

因此这个系数并不是越大越好。我们需要优化这个正则化系数的值，以便获得一个良好拟合的模型，如下图所示。

３．　深度学习中的正则化

L2和L1正则化

L1和L2是最常见的正则化方法，它们的做法是在代价函数后面再加上一个正则化项。

代价函数 = 损失（如二元交叉熵） + 正则化项

由于添加了这个正则化项，各权值被减小了，换句话说，就是神经网络的复杂度降低了，结合“网络有多复杂，过拟合就有多容易”的思想，从理论上来说，这样做等于直接防止过拟合（奥卡姆剃刀法则）。

当然，这个正则化项在L1和L2里是不一样的。对于L2，它的代价函数可表示为：

这里λ就是正则化系数，它是一个超参数，可以被优化以获得更好的结果。对上式求导后，权重w前的系数为1−ηλ/m，因为η、λ、m都是正数，1−ηλ/m小于1，w的趋势是减小，所以L2正则化也被称为权重衰减。而对于L1，它的代价函数可表示为：

和L2不同，这里我们惩罚的是权重w的绝对值。对上式求导后，我们得到的等式里包含一项-sgn(w)，这意味着当w是正数时，w减小趋向于0；当w是负数时，w增大趋向于0。所以L1的思路就是把权重往0靠，从而降低网络复杂度。

因此当我们想要压缩模型时，L1的效果会很好，但如果只是简单防止过拟合，一般情况下还是会用L2。

Ｄropout

Dropout称得上是正则化方法中最有趣的一种，它的效果也很好，所以是深度学习领域常用的方法之一。为了更好地解释它，我们先假设我们的神经网络长这样：

那么Dropout到底drop了什么？我们来看下面这幅图：在每次迭代中，它会随机选择一些神经元，并把它们(神经元)连同相应的输入输出一并“删除”。

比起L1和L2对代价函数的修改，Dropout更像是训练网络的一种技巧。随着训练进行，神经网络在每一次迭代中都会忽视一些（超参数，常规是一半）隐藏层/输入层的神经元，这就导致不同的输出，其中有的是正确的，有的是错误的。

这个做法有点类似集成学习，它能更多地捕获更多的随机性。集成学习分类器通常比单一分类器效果更好，同样的，因为网络要拟合数据分布，所以Dropout后模型大部分的输出肯定是正确的，而噪声数据影响只占一小部分，不会对最终结果造成太大影响。

由于这些因素，当我们的神经网络较大且随机性更多时，我们一般用Dropout。

数据增强

既然过拟合是模型对数据集中噪声和细节的过度捕捉，那么防止过拟合最简单的方法就是增加训练数据量。但是在机器学习任务中，增加数据量并不是那么容易实现的，因为搜集、标记数据的成本太高了。

假设我们正在处理的一些手写数字图像，为了扩大训练集，我们能采取的方法有——旋转、翻转、缩小/放大、位移、截取、添加随机噪声、添加畸变等。下面是一些处理过的图：

这些方式就是数据增强。从某种意义上来说，机器学习模型的性能是靠数据量堆出来的，因此数据增强可以为模型预测的准确率提供巨大提升。有时为了改进模型，这也是一种必用的技巧。

早停法

这是一种交叉验证策略。训练前，我们从训练集中抽出一部分作为验证集，随着训练的进行，当模型在验证集上的性能越来越差时，我们立即手动停止训练，这种提前停止的方法就是早停法。

在上图中，我们应该在虚线位置就停止训练，因为在那之后，模型就开始过拟合了。

john_heng

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
深度学习中的正则化

在训练深度框架时会出现训练集表现优秀，但测试集却很差。此时很可能出现过拟合了，解决过拟合问题一般采取一些正则化步骤。本文中，我们将详细介绍几种常用的正则化方法，本文是基于该文章总结的。目录１．　什么是正则化２.　正则化和过拟合３．　深度学习中的正则化Ｌ1和Ｌ２正则化Ｄropout数据增强早停法１．什么是正则化如上图所示，刚开始的时候，模型还不能很好地拟合所有数据点，即无法反映数据分布，这时它是欠...
复制链接

扫一扫