模型泛化与过拟合：原因、解决方案与正则化技术-CSDN博客

本文链接：https://blog.csdn.net/DecafTea/article/details/115469580

1. overfitting

https://zhuanlan.zhihu.com/p/72038532

**模型在训练集上表现很好，但在测试集上却表现很差。**模型对训练集"死记硬背"（记住了不适用于测试集的训练集性质或特点），没有理解数据背后的规律，泛化能力差。

造成原因主要有以下几种：
1、训练数据集样本单一，样本不足。如果训练样本只有负样本，然后那生成的模型去预测正样本，这肯定预测不准。所以训练样本要尽可能的全面，覆盖所有的数据类型。
2、训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。过多的干扰会导致记录了很多噪声特征，忽略了真实输入和输出之间的关系。
3、模型过于复杂。模型太复杂，已经能够“死记硬背”记下了训练数据的信息，但是遇到没有见过的数据的时候不能够变通，泛化能力太差。我们希望模型对不同的模型都有稳定的输出。模型太复杂是过拟合的重要因素。

正则化是指修改学习算法，使其降低泛化误差而非训练误差。

常用的正则化方法根据具体的使用策略不同可分为：（1）直接提供正则化约束的参数正则化方法，如L1/L2正则化；（2）通过工程上的技巧来实现更低泛化误差的方法，如提前终止(Early stopping)和Dropout；（3）不直接提供约束的隐式正则化方法，如数据增强等。

获取和使用更多的数据（数据集增强）——解决过拟合的根本性方法

让机器学习或深度学习模型泛化能力更好的办法就是使用更多的数据进行训练。但是，在实践中，我们拥有的数据量是有限的。解决这个问题的一种方法就是创建“假数据”并添加到训练集中——数据集增强。通过增加训练集的额外副本来增加训练集的大小，进而改进模型的泛化能力。

我们以图像数据集举例，能够做：旋转图像、缩放图像、随机裁剪、加入随机噪声、平移、镜像等方式来增加数据量。另外补充一句，在物体分类问题里，CNN在图像识别的过程中有强大的“不变性”规则，即待辨识的物体在图像中的形状、姿势、位置、图像整体明暗度都不会影响分类结果。我们就可以通过图像平移、翻转、缩放、切割等手段将数据库成倍扩充。

采用合适的模型（控制模型的复杂度）

过于复杂的模型会带来过拟合问题。对于模型的设计，目前公认的一个深度学习规律"deeper is better"。国内外各种大牛通过实验和竞赛发现，对于CNN来说，层数越多效果越好，但是也更容易产生过拟合，并且计算所耗费的时间也越长。

根据奥卡姆剃刀法则：在同样能够解释已知观测现象的假设中，我们应该挑选“最简单”的那一个。对于模型的设计而言，我们应该选择简单、合适的模型解决复杂的问题。

降低特征的数量

对于一些特征工程而言，可以降低特征的数量——删除冗余特征，人工选择保留哪些特征。这种方法也可以解决过拟合问题。

L1 / L2 正则化
Dropout

Dropout是在训练网络时用的一种技巧（trike），相当于在隐藏单元增加了噪声。Dropout 指的是在训练过程中每次按一定的概率（比如50%）随机地“删除”一部分隐藏单元（神经元）。所谓的“删除”不是真正意义上的删除，其实就是将该部分神经元的激活函数设为0（激活函数的输出为0），让这些神经元不计算而已。

Dropout为什么有助于防止过拟合呢？

（a）在训练过程中会产生不同的训练模型，不同的训练模型也会产生不同的的计算结果。随着训练的不断进行，计算结果会在一个范围内波动，但是均值却不会有很大变化，因此可以把最终的训练结果看作是不同模型的平均输出。

（b）它消除或者减弱了神经元节点间的联合，降低了网络对单个神经元的依赖，从而增强了泛化能力。

Early stopping（提前终止）

对模型进行训练的过程即是对模型的参数进行学习更新的过程，这个参数学习的过程往往会用到一些迭代方法，如梯度下降（Gradient descent）。Early stopping是一种迭代次数截断的方法来防止过拟合的方法，即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。

为了获得性能良好的神经网络，训练过程中可能会经过很多次epoch（遍历整个数据集的次数，一次为一个epoch）。如果epoch数量太少，网络有可能发生欠拟合；如果epoch数量太多，则有可能发生过拟合。Early stopping旨在解决epoch数量需要手动设置的问题。具体做法：每个epoch（或每N个epoch）结束后，在验证集上获取测试结果，随着epoch的增加，如果在验证集上发现测试误差上升，则停止训练，将停止之后的权重作为网络的最终参数。

为什么能防止过拟合？当还未在神经网络运行太多迭代过程的时候，w参数接近于0，因为随机初始化w值的时候，它的值是较小的随机值。当你开始迭代过程，w的值会变得越来越大。到后面时，w的值已经变得十分大了。所以early stopping要做的就是在中间点停止迭代过程。我们将会得到一个中等大小的w参数，会得到与L2正则化相似的结果，选择了w参数较小的神经网络。

Early Stopping缺点：没有采取不同的方式来解决优化损失函数和过拟合这两个问题，而是用一种方法同时解决两个问题，结果就是要考虑的东西变得更复杂。之所以不能独立地处理，因为如果你停止了优化损失函数，你可能会发现损失函数的值不够小，同时你又不希望过拟合。

2. L1/L2的多种解释

1）贝叶斯解释
2）梯度下降求导公式解释

(1) L1 正则化
在原始的损失函数后面加上一个L1正则化项，即全部权重 [公式] 的绝对值的和，再乘以λ/n。则损失函数变为：
在这里插入图片描述
当w = 0 时，|w|是不可导的。所以我们仅仅能依照原始的未经正则化的方法去更新w。

当 w > 0 时，sgn( w ) > 0, 则梯度下降时更新后的 w 变小。

当w < 0 时，sgn( w ) < 0, 则梯度下降时更新后的 w 变大。换句换说，L1正则化使得权重 [公式] 往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合。

这也就是L1正则化会产生更稀疏（sparse）的解的原因。此处稀疏性指的是最优值中的一些参数为0。L1正则化的稀疏性质已经被广泛地应用于特征选择机制，从可用的特征子集中选择出有意义的特征。

(2) L2 正则化

L2正则化通常被称为权重衰减（weight decay），就是在原始的损失函数后面再加上一个L2正则化项，即全部权重[公式]的平方和，再乘以λ/2n。则损失函数变为：

在这里插入图片描述

L2正则化起到使得权重参数w变小的效果，为什么能防止过拟合呢？因为更小的权重参数 w 意味着模型的复杂度更低，对训练数据的拟合刚刚好，不会过分拟合训练数据，从而提高模型的泛化能力。

ME、MAP

SVM

GBDT, xgBoost， adaboost

牛顿法、拟牛顿法

https://zhuanlan.zhihu.com/p/46536960

牛顿法（Newton method）和拟牛顿法（quasi Newton method）是求解无约束最优化问题的常用方法，有收敛速度快的优点。牛顿法是迭代算法，每一步都需求解目标函数的海塞矩阵（Hessian Matrix），计算比较复杂。拟牛顿法通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵，简化了这一计算过程。

1、牛顿法

求解满足f(x) = 0的x*：
在这里插入图片描述
求解满足f’(x) = 0的x*：

当目标函数是二次函数时，海塞矩阵退化成一个常数矩阵，从任一初始点出发，牛顿法可一步到达，因此它是一种具有二次收敛性的算法。对于非二次函数，若函数的二次性态较强，或迭代点已进入极小点的邻域，则其收敛速度也是很快的，这是牛顿法的主要优点。

牛顿法的迭代公式中由于没有步长因子，是定步长迭代，对于非二次型目标函数，有时会使函数值上升；牛顿法的另一个弊病在于，每一次迭代都要计算 H^-1 ，这一步计算比较复杂，下一节的拟牛顿法将解决这个问题。

2、拟牛顿法
如上节所说，牛顿法虽然收敛速度快，但是需要计算海塞矩阵的逆矩阵 [公式] ，而且有时目标函数的海塞矩阵无法保持正定，从而使得牛顿法失效。为了克服这两个问题，人们提出了拟牛顿法。这个方法的基本思想是：不用二阶偏导数而构造出可以近似海塞矩阵（或海塞矩阵的逆）的正定对称阵。不同的构造方法就产生了不同的拟牛顿法。

下面我们先推导一下拟牛顿条件，它给“对海塞矩阵（或海塞矩阵的逆）做近似”提供了理论指导，指出了用来近似的矩阵应该满足的条件。

3.1、牛顿法和梯度下降法
二者都是求解无约束最优化问题的常用方法，牛顿法是二阶收敛，梯度下降法是一阶收敛，所以牛顿法更快.

3.2、牛顿法和深度学习
深度学习中，往往采用梯度下降法作为优化算子，而很少采用牛顿法，主要原因有以下几点：

神经网络通常是非凸的，这种情况下，牛顿法的收敛性难以保证；
即使是凸优化，只有在迭代点离全局最优很近时，牛顿法才会体现出收敛快的优势；
可能被鞍点吸引。

规则化参数是防止我们的模型过分拟合我们的训练数据。

范数正则化L0、L1、L2-岭回归&Lasso回归

问题背景：参数太多，会导致我们的模型复杂度上升，容易过拟合。

作用：

1、约束参数，降低模型复杂度。

2、规则项的使用还可以约束我们的模型的特性。这样就可以将人对这个模型的先验知识融入到模型的学习当中，强行地让学习到的模型具有人想要的特性，例如稀疏、低秩、平滑等等。

分解我们的目标函数：

在这里插入图片描述

1）L0/L1范数

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元素都是0。都为稀疏。

L1范数是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。

3、参数稀疏的好处

1）特征选择(Feature Selection)：它能实现特征的自动选择。一般来说，xi的大部分元素（也就是特征）都是和最终的输出yi没有关系或者不提供任何信息的，在最小化目标函数的时候考虑xi这些额外的特征，虽然可以获得更小的训练误差，但在预测新的样本时，这些没用的信息反而会被考虑，从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些没有信息的特征，也就是把这些特征对应的权重置为0。
2）模型可解释性(Interpretability)：通过学习，如果最后学习到的w*就只有很少的非零元素，例如只有5个非零的wi，那么我们就有理由相信，这些对应的特征在患病分析上面提供的信息是巨大的，决策性的。

2）L1（Lasso）、L2（岭回归）范数
L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0。

L2的作用=参数变小=模型变简单≈模型参数信息变少。

L2的作用：

1、L2范数不但可以防止过拟合，还可以让我们的优化求解变得稳定和快速。

2、优化计算的角度。L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题。

（condition number：condition number衡量的是输入发生微小变化的时候，输出会发生多大的变化。也就是系统对微小变化的敏感度。condition number值小的就是well-conditioned的，大的就是ill-conditioned的。

如果一个矩阵的condition number在1附近，那么它就是well-conditioned的，如果远大于1，那么它就是ill-conditioned的，如果一个系统是ill-conditioned的，它的输出结果就不要太相信了。）

Lasso算法和岭回归算法区别
1、梯度下降速度

L1和L2的差别就在于这个“坡”不同，如下图：L1就是按绝对值函数的“坡”下降的，而L2是按二次函数的“坡”下降。所以实际上在0附近，L1的下降速度比L2的下降速度要快。所以会非常快得降到0。
在这里插入图片描述
2、模型空间的限制

L1正则项约束的解空间是菱形，而L2是圆形，相当于为参数定义了一个圆形的解空间（因为必须保证L2范数不能大于m）。如果原问题目标函数的最优解不是恰好落在解空间内，那么约束条件下的最优解一定在解空间的边界上，而L1棱角分明的解空间显然更容易与目标函数等高线在角点碰撞，从而产生稀疏解。
在这里插入图片描述