人工智能算法学习笔记（四）——偏差、方差、误差

最新推荐文章于 2022-09-25 17:05:24 发布

姜球球

最新推荐文章于 2022-09-25 17:05:24 发布

阅读量1.2k

点赞数

分类专栏：人工智能

本文链接：https://blog.csdn.net/qq_34623720/article/details/87712356

版权

人工智能专栏收录该内容

7 篇文章 3 订阅

订阅专栏

最近在看周志华老师的西瓜书模型评估与选择时，其中对于偏差（Bias）、方差（Variance）等概念有些理解模糊，经过上网查询学习后进行了深刻的理解，下面将我所学到的内容记录如下，和大家共同交流。

首先，需要明确的一点是，Bias和Variance是针对Generalization（泛化）而言的。
在机器学习中，一般是定义一个误差函数（Loss Function），学习的过程就是最小化loss的过程。我们在学习的时候，最终学习的结果直接在所训练的数据上取得了最小的loss，但是在一般的数据集上实际的loss可能比较大，而由训练数据得到的loss与一般化数据的loss之间的差异叫泛化误差（generalization error）。
周志华提出“偏差—方差分解”（bias-variance decomposition)是解释学习算法泛化性能的一种重要工具。
泛化误差可以分解为偏差、方差和噪声之和。
具体数学公式的推导就不写了，可以查看西瓜书2.5节的推导过程。

偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。

方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

噪声则表达了当前任务上学习任何算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。

怎么理解呢？

先上一张图，一图胜千言！
准与确

准：bias描述的是根据样本拟合出模型的输出预测结果的期望与样本真实结果的差距，简单讲，就是在样本上拟合的好不好。要想在bias上表现好，low bias，就得复杂化模型，增加模型的参数，但这样容易过拟合 (overfitting)，过拟合对应上图是high variance，点很分散。low bias对应就是点都打在靶心附近，所以瞄的是准的，但手不一定稳。
确：varience描述的是样本上训练出来的模型在测试集上的表现，要想在variance上表现好，low varience，就要简化模型，减少模型的参数，但这样容易欠拟合(unfitting)，欠拟合对应上图是high bias，点偏离中心。low variance对应就是点都打的很集中，但不一定是靶心附近，手很稳，但是瞄的不准。

varience描述的是样本上训练出来的模型在测试集上的表现，要想在variance上表现好，low varience，就要简化模型，减少模型的参数，但这样容易欠拟合(unfitting)，欠拟合对应上图是high bias，点偏离中心。low variance对应就是点都打的很集中，但不一定是靶心附近，手很稳，但是瞄的不准。

因此bias和variance的选择是一个tradeoff（权衡，折中）。该图的下半部分就描述了这样的一个权衡。
假设我们现在有一组训练数据，需要训练一个模型（基于梯度的学习，不包括最近邻等方法）。在训练过程的最初，bias很大，因为我们的模型还没有来得及开始学习，也就是与“真实模型”差距很大。然而此时variance却很小，因为训练数据集（training data）还没有来得及对模型产生影响，所以此时将模型应用于“不同的”训练数据集也不会有太大差异。而随着训练过程的进行，bias变小了，因为我们的模型变得“聪明”了，懂得了更多关于“真实模型”的信息，输出值与真实值之间更加接近了。但是如果我们训练得时间太久了，variance就会变得很大，因为我们除了学习到关于真实模型的信息，还学到了许多具体的，只针对我们使用的训练集（真实数据的子集）的信息。而不同的可能训练数据集（真实数据的子集）之间的某些特征和噪声是不一致的，这就导致了我们的模型在很多其他的数据集上就无法获得很好的效果，也就是所谓的overfitting（过拟合）。

最后给出一个好理解的结论就是：误差反映的是整个模型的准确度，偏差反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，方差反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。噪声反应模型学习不了的部分，或者说影响模型学习的部分。
在机器学习的过程中，一方面尽可能的增大数据集或者选取到比较好的数据集，另一个方面是在训练的过程中平衡模型的方差和偏差，使模型既不欠拟合也不过拟合。

未完待续。。。