过拟合_过拟合与高方差-CSDN博客

本文链接：https://blog.csdn.net/qq_43152949/article/details/100080463

偏差和方差

欠拟合(underfitting)，或者叫作叫做高偏差(bias)。
过拟合(overfitting)，也叫高方差(variance)。
在这里插入图片描述
左上：低偏差，低方差。预测结果准确率很高，并且模型比较健壮（稳定），预测结果高度集中。
右上：低偏差，高方差。预测结果准确率较高，并且模型不稳定，预测结果比较发散。
左下：高偏差，低方差。预测结果准确率较低，但是模型稳定，预测结果比较集中。
右下：高偏差，高方差。预测结果准确率较低，模型也不稳定，预测结果比较发散。

偏差（bias）:对象是单个模型，期望输出与真实标记的差别。

方差（Variance）：

在这里插入图片描述
用公式推导泛化误差与偏差与方差, 噪声之间的关系：

E 为 ∑ 符号

泛化误差
以回归任务为例, 学习算法的平方预测误差期望为:
在这里插入图片描述
方差
在一个训练集 D 上模型 f 对测试样本 x 的预测输出为 f(x;D), 那么学习算法 f 对测试样本 x 的期望预测为:

上面的期望预测也就是针对不同数据集 D, f 对 x 的预测值取其期望, 也被叫做 average predicted。

使用样本数相同的不同训练集产生的方差为:
在这里插入图片描述
噪声
噪声为真实标记与数据集中的实际标记间的偏差:

偏差
期望预测与真实标记的误差称为偏差(bias), 为了方便起见, 我们直接取偏差的平方:

对算法的期望泛化误差进行分解（周志华书有，这里有假定噪声为0）:
在这里插入图片描述

偏差, 方差与噪声的含义:

偏差度量了学习算法的期望预测与真实结果的偏离程序, 即 刻画了学习算法本身的拟合能力 .

方差度量了同样大小的训练集的变动所导致的学习性能的变化, 即 刻画了数据扰动所造成的影响 .

噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界, 即 刻画了学习问题本身的难度 .

偏差-方差窘境 (bias-variance dilemma)：

给定一个学习任务, 在训练初期, 由于训练不足, 学习器的拟合能力不够强, 偏差比较大, 也是由于拟合能力不强, 
	数据集的扰动也无法使学习器产生显著变化, 也就是欠拟合的情况;

随着训练程度的加深, 学习器的拟合能力逐渐增强, 训练数据的扰动也能够渐渐被学习器学到;

充分训练后, 学习器的拟合能力已非常强, 训练数据的轻微扰动都会导致学习器发生显著变化, 当训练数据自身的、
	非全局的特性被学习器学到了, 则将发生过拟合.

参考：https://blog.csdn.net/simple_the_best/article/details/71167786

过拟合

过拟合有两种原因：

训练集和测试机特征分布不一致（白天鹅黑天鹅）
或者模型太过复杂而样本量不足

如何处理：

1.尽量减少选取变量的数量

具体而言，我们可以人工检查每一项变量，并以此来确定哪些变量更为重要，然后，保留那些更为重要的特征变量。至于，哪些变量应该舍弃，我们以后在讨论，这会涉及到模型选择算法，这种算法是可以自动选择采用哪些特征变量，自动舍弃不需要的变量。这类做法非常有效，但是其缺点是当你舍弃一部分特征变量时，你也舍弃了问题中的一些信息。例如，也许所有的特征变量对于预测房价都是有用的，我们实际上并不想舍弃一些信息或者说舍弃这些特征变量。

2.正则化

正则化中我们将保留所有的特征变量，但是会减小特征变量的数量级（参数数值的大小θ(j)）。
这个方法非常有效，当我们有很多特征变量时，其中每一个变量都能对预测产生一点影响。正如我们在房价预测的例子中看到的那样，我们可以有很多特征变量，其中每一个变量都是有用的，因此我们不希望把它们删掉，这就导致了正则化概念的发生。
接下来我们会讨论怎样应用正则化和什么叫做正则化均值，然后将开始讨论怎样使用正则化来使学习算法正常工作，并避免过拟合。

3.数据增强（Data augmentation），也就是增加训练数据样本

3.Dropout

4.early stopping

L1和L2的差别，为什么一个让绝对值最小，一个让平方最小，会有那么大的差别呢？我看到的有两种几何上直观的解析：

（1）下降速度：

我们知道，L1和L2都是规则化的方式，我们将权值参数以L1或者L2的方式放到代价函数里面去。然后模型就会尝试去最小化这些权值参数。而这个最小化就像一个下坡的过程，L1和L2的差别就在于这个“坡”不同，如下图：L1就是按绝对值函数的“坡”下降的，而L2是按二次函数的“坡”下降。所以实际上在0附近，L1的下降速度比L2的下降速度要快，所以会非常快得降到0。

在这里插入图片描述
总结就是：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。