机器学习——模型误差分析

最新推荐文章于 2024-04-25 09:26:16 发布

竹林刀声dogwaves

最新推荐文章于 2024-04-25 09:26:16 发布

阅读量1.8w

点赞数 4

分类专栏：机器学习文章标签： Deep Learning Machine Learning 模型评价 bias/variance precision/recall

本文链接：https://blog.csdn.net/weixin_42769044/article/details/86485700

版权

机器学习中算法模型的误差分析是一个重要的课题。模型训练完成后，我们通常通过测试集来计算准确率(Accuracy)，来评价模型的优劣。而在模型选择、训练和优化过程中，我们常常用偏差/方差（Bias/Variance），或者欠拟合和过拟合（Underfitting/overfitting）作为优化模型的依据。当我们遇到偏斜类问题(Skewed classes)时，我们又需要新的误差评估量度（Error Metrics）叫做查准率和召回率（Precision/Recall）来权衡（trade off）模型参数的选取。
以下内容是关于偏差/方差（Bias/Variance），和查准率和召回率（Precision/Recall）的整理。

1、偏差/方差（Bias/Variance）

1.1 基本概念

偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。

方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。在这里插入图片描述
其他表述：（我更喜欢周志华老师的描述）
在忽略噪声的情况下，泛化误差可分解为偏差、方差两部分。
偏差：度量学习算法的期望预测与真实结果的偏离程度，也叫拟合能力。
方差：度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动造成的影响。

1.2 数学描述

首先，在机器学习中，我们建模的目的就是要找到一个函数。一个理想的、完美的函数是应该能够完美的拟合学习任务的，也就是能够建立一个完美的从输入变量（X）到输出变量（Y）的映射的。但现实世界是不可能完美的，当我们获取实际的数据来训练我们的模型的时候，由于数据存在噪声，我们没法得到这个完美的函数。

用数学定义如下：假如提供的训练数据是y, 完美函数是f(x) 。则y = f(x) + ϵ。其中ϵ是由于噪声等引起的、不可避免的随机误差。机器学习的目的就是要从这些含有噪声的数据中找出（或者说尽可能的靠近）这个f(x) .也就是要基于训练数据y，构建一个f’(x)来近似f(x)。 f’(x)就是我们平常机器学习中学习（构建）的模型。从上面我们知道，这个模型肯定是存在误差的。这个误差显然包括由于噪声等引起的不可避免的误差（也就是，不管你怎么选择算法，怎么调参优化，都会有。这个误差是你的模型误差的下界）。那除了这个不可避免的误差外，还存在其他误差吗？回答是肯定的。除了这个不可避免的误差，还存在偏差和方差。而这两项误差，才是我们能控制的。也就是在建模中，我们要优化我们的模型，降低模型的误差，只能从这两项着手。有时候模型误差高，是因为偏差高，有时候又是因为方差高。所以明白偏差和方差的区别就变得非常重要了。

由上面我们知道：
模型误差 = 方差 + 偏差 + 不可避免的随机误差

用数学公式表示就是：
在这里插入图片描述
其中，

最低0.47元/天解锁文章

竹林刀声dogwaves

关注

4
点赞
踩
55

收藏

觉得还不错? 一键收藏
1
评论
机器学习——模型误差分析

偏差和方差是描述机器学习模型好坏的两个重要指标，这里整理一下。1、定义1.1 基本概念偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。其他表述：（我更喜欢周志华老师的描述）在忽略噪声的情况下，泛化误差可分解为偏差、方差两部分...
复制链接

扫一扫