深度学习的实用层面 —— 1.2 偏差/方差

最新推荐文章于 2024-06-24 16:20:40 发布

然后就去远行吧

最新推荐文章于 2024-06-24 16:20:40 发布

阅读量303

点赞数

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/qq_37388085/article/details/103357902

版权

吴恩达深度学习专栏收录该内容

61 篇文章 30 订阅

订阅专栏

假设有一个数据集，如果给这个数据集拟合一条直线，可能得到一份逻辑回归拟合，但它并不能很好地拟合该数据集，这就是偏差高的情况，我们称为欠拟合。在这里插入图片描述

相反地，如果我们拟合一个非常复杂的分类器，比如深度神经网络或含有隐藏单元的神经网络，可能就非常适用于这个数据集，但是这看起来也不是一种很好的拟合方式，分类器方差较高，数据过度拟合。
在这里插入图片描述
在两者之间，可能还有一些像图中这样的，复杂度适中，数据拟合适度的分类器，这个数据拟合看起来更加合理，我们称之为适度拟合，是介于过拟合和欠拟合中间的一类。

在这样一个只有 $x 1$ 和 $x 2$ 两个特征的二维数据集中，我们可以绘制数据，将偏差和方差可视化，在多维空间数据中，绘制数据和可视化分隔边界无法实现，但我们可以通过几个指标来研究偏差和方差。
在这里插入图片描述
我们沿用猫咪图片分类这个例子，理解偏差和方差的两个关键数据是训练集误差和验证集误差。为方便论证，假设我们可以辨别图片中的小猫，我们用肉眼识别几乎是不会出错的，假定训练集错误率是1%。为方便论证，假设验证集错误率是11%，可以看出训练集设置得非常好，而验证集设置相对较差，我们可能过度拟合了训练集。某种程度上，验证集并没有充分利用交叉验证集的作用。像这种情况，我们称之为高方差。通过查看训练集误差和验证集误差，我们便可以诊断算法是否具有高方差，也就是说衡量训练集和验证集误差得出不同结论。

假设训练集错误率为15%，验证集错误率是16%，假设该案例中人的错误率几乎为0%，人们浏览这些图片，分辨出是不是猫，算法并没有在训练集中得到很好训练，如果训练数据的拟合度不高，就是数据欠拟合，就可以说这种算法偏差比较高。相反，它对于验证集产生的结果却是合理的，验证集中的错误率只比训练集的多了1%，所以这种算法偏差高，因为它甚至不能拟合训练集。

再举一个例子，训练集的错误率是15%，偏差相当高，但是验证集的评估结果更糟糕，错误率达到30%，这种情况下，会认为这种算法偏差高，因为它在训练集上结果不理想，方差也很高，这是方差和偏差都很糟糕的情况。

最后再看一个例子，训练集的错误率是5%，验证集的错误率是1%，猫咪分类器只有1%的错误率，偏差和方差都很低。

有一点先简单提一下，这些分析都是基于假设预测的，假设人眼辨别的错误率接近0%，一般来说，最优误差也被称为贝叶斯误差，所以最优误差接近0%。如果最优误差或贝叶斯误差非常高，比如15%，看看这个分类器，15%的错误率对于训练集来说也是非常合理的，偏差不高，方差也非常低。

当所有分类器都不适用时，如何分析偏差和方差呢？比如，图片很模糊，即使是人眼或者没有系统可以准确无误地识别图片，这种情况下，最优误差会更高，那么分析过程就要做些改变了。

以上分析的前提都是假设基本误差很小，训练集和验证集数据来自相同分布，如果没有这些假设作为前提，分析过程会更加复杂。

我们讲了高偏差和高方差的情况，应该对优质分类器有了一定的认识，偏差和方差都高是什么样子呢？这种情况对于两种衡量标准来说都是非常糟糕的。
在这里插入图片描述
我们之前讲过，这样的分类器会产生高偏差，因为它的数据拟合低，像这种接近线性的分类器，数据拟合度低。但如果我们稍微改变一下分类器，它会过度拟合部分数据，如图所示画出的分类器具有高偏差和高方差。偏差高是因为它几乎是一条线性分类器，并未拟合数据。
在这里插入图片描述
这种二次曲线能够很好地拟合数据，这种曲线中间灵活性非常高，却过度拟合了两个样本。这类分类器偏差很高，因为它几乎是线性的，而采用曲线函数或二次元函数会产生高方差，因为它曲线灵活性太高，以致拟合了这两个错误样本和中间这些活跃数据，这看起来有点不自然，从两个维度上看都不太自然。但对于高维数据，有些数据区域偏差高，有些数据区域方差高，所以在高维数据中采用这种分类器看起来就不会这么牵强了。