机器学习算法笔记之9：偏差与方差、学习曲线

最新推荐文章于 2024-07-31 10:24:52 发布

marsjhao

最新推荐文章于 2024-07-31 10:24:52 发布

阅读量3.4k

点赞数 4

分类专栏：机器学习/深度学习文章标签：偏差与方差机器学习学习曲线

本文链接：https://blog.csdn.net/marsjhao/article/details/81487776

版权

本文深入探讨机器学习中的偏差与方差概念，解释它们之间的权衡关系，并介绍了学习曲线如何帮助诊断模型性能。低偏差模型适应性强但方差高，反之亦然。学习曲线展示了误差随训练数据变化的情况，揭示了模型过拟合或欠拟合的迹象。解决高偏差和高方差问题的方法包括增加特征和调整正则化。最后，通过sklearn库的学习曲线功能进行了实践应用。

摘要由CSDN通过智能技术生成

1. 偏差与方差的理解

在训练机器学习模型时，使用不同的训练集很可能会得到不同的估计模型，估计模型随着训练集的改变而变化的程度就叫做方差variance。我们训练得到的估计模型与实际真实模型的偏差即为bias，估计与实际差距越大，bias就越高。为了得到较低的误差，需要尽可能地降低方差和偏差，然而这两者不能同时减小，在bias与variance之间存在一个权衡trade-off。

低偏差的模型可以很好的适应训练数据，改变训练集会得到特别不同的模型，及低Bias的方法能够捕捉到训练集中的大部分差异，改变数据集时估计模型会变化很多，意味着该模型是高方差的（high variance）。模型的 bias 越低，它适应数据的能力就越强，同时 variance 也越高。所以，bias 越低，variance 越高。

反过来也说得通：bias 越高，variance 越低。一个高 variance 的模型构建的简单模型通常是不能很好适应数据集的。当我们改变数据集的时候，从高 bias 的算法得到的模型 f^ 通常不会有很大不同。如果我们改变训练集的时候 f^ 不会改变太多，那么 variance 就比较低，这恰好证明了我们的观点：bias 越高，variance 越低。

在实际中，我们需要接受一个 trade-off。我们不可能同时得到低 bias 和低 variance，所以我们期望得到某种中间结果。