2021-07-16

一. 基础理论1.训练均方误差与测试均方误差
在回归中,我们最常用的评价指标为均方误差,即:MSE=1N∑i=1N(yi−f̂(xi))2MSE=1N∑i=1N(yi−f(xi))2,其中f̂(xi)f(xi)是样本xixi应用建立的模型f̂f^预测的结果。如果我们所用的数据是训练集上的数据,那么这个误差为训练均方误差,如果我们使用测试集的数据计算的均方误差,我们称为测试均方误差。当我们的模型的训练均方误差达到很小时,测试均方误差反而很大,但是我们寻找的最优的模型是测试均方误差达到最小时对应的模型,因此基于训练均方误差达到最小选择模型本质上是行不同的。正如上右图所示:模型在训练误差很小,但是测试均方误差很大时,我们称这种情况叫模型的过拟合。2.偏差-方差的权衡
E(y0−f(x0))2=Var(f(x0))+[Bias(f(x0))]2+Var(ε)测试均方误差的期望值可以分解为(x0)的方差、f̂(x0)f的偏差平方和误差项ϵ的方差。Var⁡(ε)为建模任务的难度,这个量在我们的任务确定后是无法改变的,也叫做不可约误差。所谓模型的方差就是:用不同的数据集去估计f时,估计函数的改变量。一般来说,模型的复杂度越高,f的方差就会越大。 如加入二次项的模型的方差比线性回归模型的方差要大。另一方面,模型的偏差是指:为了选择一个简单的模型去估计真实函数所带入的误差。模型的复杂度引起的这种误差我们称为偏差。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。偏差度量的是单个模型的学习能力,而方差度量的是同一个模型在不同数据集上的稳定性。“偏差-方差分解”说明:泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小。

一般而言,增加模型的复杂度,会增加模型的方差,但是会减少模型的偏差,我们要找到一个方差–偏差的权衡。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值