机器学习之理解Bias-Variance Tradeoff

最新推荐文章于 2024-10-06 13:04:40 发布

赵卓不凡

最新推荐文章于 2024-10-06 13:04:40 发布

阅读量1.7k

点赞数

分类专栏：深度学习文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/sgzqc/article/details/121764493

版权

深度学习专栏收录该内容

59 篇文章

订阅专栏

1 引言

在机器学习中,我们经常会遇到模型过拟合和欠拟合的现象, 二者背后就是Bias-Variance Tradeoff.

今天，我们将详细介绍什么是Bias-Variance Tradeoff，它从何而来，为什么需要考虑，以及可以做些什么来改进我们的机器学习模型。

好的,闲话少说,我们直接开始吧. 😃

2 问题引入

机器学习系统的实质思想为从收集的样本数据中对数据的潜在分布进行建模。如果我们采样了足够多的准确样本，则可以很容易地拟合出数据的分布，如下所示。

在这里插入图片描述

将上述过程进行抽象, 即对于样本 (x,y) , 我们估计这样的函数 f.

在这里插入图片描述

但问题是在现实生活中收集的样本通常是含有噪声的。这种噪声的来源可能是很多因素，例如量化、传感器的限制等。

在这里插入图片描述

因此我们无法获得分布的确切输出，而是向其中添加了噪声因素。所以现在的问题转变为估计函数 f，给定输入 x，及其相应的噪声输出 y。

在这里插入图片描述

我们的目标是有效地估计函数 f 并滤除噪声。现在，由于我们对添加到样本输出中的噪声知之甚少，如果处理不当，机器学习系统最终会将输入 x 映射到含噪声输出 y（称为过拟合）。此映射不是函数 f 的准确表示，并且会在其他测试数据上产生更高的误差。

Bias-Variance Tradeoff告诉我们，在存在噪声的情况下，我们的底层系统 (f(x)) 应该有多复杂，才能相当准确地表示我们数据集的分布。

3 什么是Bias和 Variance?

Bias和Variance都可以视为机器学习系统中的错误来源。

假设我们有一个训练数据集 D，它由采用样本(x,y)组成,该数据集的潜在分布服从y=f(x)+e. 我们希望从数据集D中构建模型 $f^{'}$ ,以使得训练标签和预测值之间的误差最小 (error = y - $f^{'}$ (x) ) .

3.1 Bias定义

Bias被称为模型预测期望值 $f^{'}$ (x) 和gt值f(x) 之间的误差

在这里插入图片描述

对从不同数据子集 D_i 预测的函数执行期望。简而言之，从潜在分布中采样 n 个不同的数据集 D_i（每个数据集由多个 (x,y) 对组成），并估计 n 个不同的函数 f_i 。然后

在这里插入图片描述

通过估计函数的Bias我们可以知道基础模型预测的能力。一般而言，较简单的模型无法捕捉高维数据的复杂性，因此它们具有更高的偏差。

例如，您有一个从正弦曲线采样的数据集，并且您正尝试使用 1 次多项式来估计它，即通过函数 y = ax+b。无论您采样多少个数据点 (x,y)，直线永远无法捕捉到正弦曲线的趋势。因此，对于正弦曲线，直线模型具有非常高的偏差。
另一方面，假设您将多项式的次数增加到 3，即现在通过 y = ax² +bx+c 对其进行估计。该多项式的性能将比前一个好得多，因此在估计正弦曲线时，3 次多项式的偏差比 1 次多项式小得多。

在这里插入图片描述

模型的BIas很高一般来说与以下因素有关:

欠拟合——无法捕捉数据潜在分布
训练和测试数据集的错误很高
过于简化的模型

3.2 Variance定义

方差(Variance)是指给定数据集的模型预测的平均离散程度。

在这里插入图片描述

通过估计函数的方差可以知道该函数能够根据数据集的变化进行调整的程度。方差越大，函数对不断变化的数据集就越稳健。
例如，假设您训练两个不同的多项式来拟合从正弦曲线采样的数据，即 1 次和 3 次多项式。您在三个不同的数据集（D1、D2 和 D3）上训练这两个多项式。下图显示了多项式次数和数据集的估计函数。

在这里插入图片描述