【机器学习300问】27、高偏差与高方差是什么？他们对评估机器学习模型起何作用？

小oo呆

已于 2024-03-14 04:33:47 修改

阅读量1.5k

点赞数 31

分类专栏：【机器学习】文章标签：机器学习人工智能

于 2024-03-06 02:17:47 首次发布

本文链接：https://blog.csdn.net/qq_39780701/article/details/136493855

版权

139 篇文章 38 订阅

订阅专栏

本文探讨了回归模型中的高偏差和高方差现象，解释了两者与欠拟合和过拟合的关系，以及如何通过学习曲线和人类表现作为参考来诊断问题。同时，文章提供了评估模型性能的策略，包括增加样本、调整特征和模型复杂度，以及使用正则化来降低偏差和方差。

摘要由CSDN通过智能技术生成

〇、回归模型举例

你选择了一个简单的模型，比如一个直线，却想拟合类似抛物线分布的数据。

你选择了一个复杂的模型，比如一个四次多项式，想拟合类似抛物线的数量少的样本。

偏差（bias）描述的是模型预测值与真实值之间的期望误差，高偏差就是指模型在训练集和验证集上的表现很差。

方差（variance）是随机变量离其期望值的偏离程度的度量，高方差指的是模型对训练数据中的噪声或者随机性过度敏感，导致模型在训练集上表现很好，但在验证集上表现很差。

高偏差通常和欠拟合相关，高方差通常和过拟合相关，我的理解是这两个表述几乎等价。

在某些特定的机器学习任务中，人类的表现水平确实可以作为一个基准或者参考标准。例如：

图像识别：对于一些视觉识别任务，如MNIST手写数字识别，模型的准确率可以与人类识别准确率进行比较，当模型性能接近或超过人类识别精度时，我们可以认为这是一个优秀的模型。
自然语言处理：在阅读理解、机器翻译等领域，BLEU分数等评价指标虽然不直接反映模型是否达到人类水平，但可以通过人工评估和模型预测结果对比，看模型是否能接近或达到专业人员的理解和表达能力。

学习曲线是一种很好的工具，可以帮助我们诊断模型的偏差和方差问题。学习曲线是训练误差和验证误差随着训练数据量的增加而变化的曲线。

在评估和优化机器学习模型时，识别并解决高偏差和高方差问题是非常重要的，他们能够揭示模型当前出了什么问题，还能够对症下药，帮助人们去改进模型，提升模型性能。

我用一个表格将6中策略和他们对应解决的问题展示出来。

对于高偏差问题，可以通过增加模型复杂度（例如：使用更高阶多项式、添加更多特征等）、调整模型参数、采用更强大的模型结构等方式来提升模型的学习能力和对数据的拟合度。
对于高方差问题，则需要采取正则化技术（如L1、L2正则化）、增大训练数据量等手段来减少模型对训练数据的过拟合，提高模型在未知数据上的稳定性和泛化能力。

关注