通俗理解误差、偏差、方差以及它们和过拟合、欠拟合之间的关系.

最新推荐文章于 2022-11-10 16:12:29 发布

lankuohsing

最新推荐文章于 2022-11-10 16:12:29 发布

阅读量2.7k

点赞数 5

分类专栏：学习笔记机器学习深度学习文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/THUChina/article/details/118662184

版权

学习笔记同时被 3 个专栏收录

53 篇文章 0 订阅

订阅专栏

深度学习

12 篇文章 0 订阅

订阅专栏

机器学习

11 篇文章 0 订阅

订阅专栏

本文深入探讨了机器学习中的误差、偏差和方差的数学定义，以及它们如何影响模型的欠拟合和过拟合。通过直观的解释和图形展示，阐述了模型的偏差与方差如何决定其预测性能，并提供了针对这两种问题的解决方案。此外，还详细分析了欠拟合和过拟合产生的原因，以及相应的应对策略。

摘要由CSDN通过智能技术生成

0. 引言

作为一名算法工程师，在利用算法模型解决实际问题时，模型的欠拟合、过拟合问题是无论如何都无法回避的。这两个问题的表象相比很多人都知道，但是涉及到它们背后的产生原因、本质以及解决方法，要说清楚还是不容易的。

1. 误差、偏差和方差的数学定义

误差（error）的概念有两类，一类是数据本身带来的噪声，一般假设服从均值为0的高斯分布，记为 $\epsilon \sim N(0,\sigma_{\epsilon})$ (噪声的各变量是独立同分布于均值为0、方差为 $\sigma_{\epsilon}$ 的正态分布),且往往是认为无法避免的；另一类是模型输出与实际值之间的误差，例如均方误差（mean squared error, MSE),这个是实际应用中我们所直接关心的，一般希望它越小越好。
假设现在有因变量 $y$ （输出）由自变量 $x$ （输入）决定，记真实的映射函数为 $f (x)$ (也叫真实的模型)，则
$y=f(x)+\epsilon \tag{1-1}$
对应的，记我们从数据中学习出的模型为 $\hat f(x)$ ,那么偏差（bias）的定义为：
$Bias(\hat f(x))=E(\hat f(x))-f(x)\tag{1-2}$
方差的定义为：
$Var(\hat f(x))=E\left[\left(\hat f(x)-E(\hat f(x))\right)^2\right]\tag{1-3}$
假设我们现在关心的是模型的均方误差 $MSE(\hat f(x)$ ，它的定义以及分解过程为：
$\begin{aligned} MSE(\hat f(x))&=E\left[\left(y-\hat f(x)\right)^2\right]\\ &=E\left[\left(f(x)+\epsilon-\hat f(x)\right)^2\right]\\ &=E\left[\left(f(x)-\hat f(x)\right)^2+2\epsilon \left(f(x)-\hat f(x)\right)+\epsilon^2\right]\\ &=E\left[\left(f(x)-\hat f(x)\right)^2\right]+2E(\epsilon)E(f(x)-\hat f(x))+E(\epsilon^2)\\ &=E\left[\left(\left(f(x)-E(\hat f(x)\right)-\left(\hat f(x)-E(\hat f(x))\right)\right)^2\right]+0+\sigma_{\epsilon}^2\\ &=E\left[\left(f(x)-E(\hat f(x))\right)^2\right]-2E\left[\left(f(x)-E(\hat f(x))\right)\left(\hat f(x)-E(\hat f(x))\right)\right]+E\left[\left(\hat f(x)-E(\hat f(x))\right)^2\right]+\sigma_{\epsilon}^2\\ &=E(Bias(\hat f(x))^2)-2E\left[f(x)\hat f(x)-f(x)E(\hat f(x))-E(\hat f(x))\hat f(x)+E(\hat f(x))E(\hat f(x))\right]+Var(\hat f(x))+\sigma_{\epsilon}^2\\ &=Bias(\hat f(x))^2+Var(\hat f(x))+\sigma_{\epsilon}^2\\ \tag{1-4} \end{aligned}$
注意，上述最后一步的化简中，用到了这些隐含条件（下面的常量是指关于数据的常量）：

$E(\hat f(x))$ 是常量， $f (x)$ 是常量，因 $此Bias(\hat f(x))$ 也是常量，且常量可以提到 $E ()$ 外面去

由此可见，均方误差是取决于偏差、方差和随机误差的，且后三者的绝对值（平方）越大，均方误差也越大，这也符合我们的一般直觉。

2. 偏差与方差的直观理解

在这里插入图片描述

图2.1 偏差和方差的图形化解释

图片来源http://scott.fortmann-roe.com/docs/BiasVariance.html
如上图所示，对于某个靶子而言，上面的每个点表示给定算法的情况下，每次更换不同的训练样本训练出不同的模型，对同一个测试样本进行预测的结果。
最理想的情况是左上角，此时偏差和方差都较小，因此模型的误差（例如前面提到的均方误差）较小；右上角是低偏差和高方差的情况，这体现出算法的输出结果不是很“稳定”，也即不同的数据训练出的模型，对同一样本的预测结果可能大相径庭；左下角是高偏差和低方差的情况，这体现出算法的输出结果虽然稳定但是与真实结果总存在一点偏差，类似于控制理论里面的静差；右下角是最糟糕的情况，偏差和方差都很大

3. 偏差、方差与欠拟合、过拟合的关系

结合上一章中的直观理解，偏差、方差与欠拟合、过拟合的关系其实呼之欲出了。

所谓欠拟合（underfitting），外在现象就是模型在训练集上和测试集上表现都不好。这就意味着，模型没有学习到数据中足够的信息，导致模型的输出与真实值存在较大偏差，也即高偏差。形象的比喻就是造狙击枪的车床有个明显的公差，导致造出来的狙击枪瞄准镜都往某个方向偏了一个角度，于是用这批狙击枪打靶都会网靶心某个方向偏移。

所谓过拟合（overfitting），外在现象就是模型在训练集上表现很好，但是在测试集上表现不好。这就意味着模型学习到了数据中的信息，但是学到的信息跟具体的训练数据强相关，缺乏举一反三、灵活变通的能力，导致模型的输出与真实值存在较大方差，也即高方差。形象的比喻就是学生只会背老师讲的题目模板，不论老师怎么教，只能记住老师教的那几个题。如果运气好，老师押中了考题，那么考得好；否则就考得差。