机器学习——模型误差分析

机器学习中算法模型的误差分析是一个重要的课题。模型训练完成后,我们通常通过测试集来计算准确率(Accuracy),来评价模型的优劣。而在模型选择、训练和优化过程中,我们常常用偏差/方差(Bias/Variance),或者欠拟合和过拟合(Underfitting/overfitting)作为优化模型的依据。当我们遇到偏斜类问题(Skewed classes)时,我们又需要新的误差评估量度(Error Metrics)叫做查准率和召回率(Precision/Recall)来权衡(trade off)模型参数的选取。
以下内容是关于偏差/方差(Bias/Variance),和查准率和召回率(Precision/Recall)的整理。

1、偏差/方差(Bias/Variance)

1.1 基本概念

偏差 :描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。

方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。在这里插入图片描述
其他表述:(我更喜欢周志华老师的描述)
在忽略噪声的情况下,泛化误差可分解为偏差、方差两部分。
偏差:度量学习算法的期望预测与真实结果的偏离程度,也叫拟合能力。
方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动造成的影响。

1.2 数学描述

首先,在机器学习中,我们建模的目的就是要找到一个函数。一个理想的、完美的函数是应该能够完美的拟合学习任务的,也就是能够建立一个完美的从输入变量(X)到输出变量(Y)的映射的。但现实世界是不可能完美的,当我们获取实际的数据来训练我们的模型的时候,由于数据存在噪声,我们没法得到这个完美的函数。

用数学定义如下: 假如提供的训练数据是y, 完美函数是f(x) 。则y = f(x) + ϵ。其中ϵ是由于噪声等引起的、不可避免的随机误差。机器学习的目的就是要从这些含有噪声的数据中找出(或者说尽可能的靠近)这个f(x) .也就是要基于训练数据y,构建一个f’(x)来近似f(x)。 f’(x)就是我们平常机器学习中学习(构建)的模型。从上面我们知道,这个模型肯定是存在误差的。这个误差显然包括由于噪声等引起的不可避免的误差(也就是,不管你怎么选择算法,怎么调参优化,都会有。这个误差是你的模型误差的下界)。那除了这个不可避免的误差外,还存在其他误差吗? 回答是肯定的。除了这个不可避免的误差,还存在偏差和方差。而这两项误差,才是我们能控制的。也就是在建模中,我们要优化我们的模型,降低模型的误差,只能从这两项着手。有时候模型误差高,是因为偏差高,有时候又是因为方差高。所以明白偏差和方差的区别就变得非常重要了。

由上面我们知道:
模型误差 = 方差 + 偏差 + 不可避免的随机误差

用数学公式表示就是:
在这里插入图片描述
其中,
在这里插入图片描述

  • 4
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值