模型评估与选择

1.经验误差与过拟合

我们把学习器的实际预测输出与样本的真实输出之间的差异称为"误差" (error) ,学习器在训练集上的误差称为"训练误差" (training error)或"经验误差" (empirical error) ,在新样本上的误差称为"泛化误差" (generalizationerror)。
当学习器把训练样本学得"太好"了的时候,就很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降这种现象在机器学习中称为"过拟合" (overfitting)。 与"过拟合"相对的是"欠拟合" (underfitting) ,这是指对训练样本的一般性质尚未学好。
在这里插入图片描述

2.交叉验证法

交叉验证法是评估方法中的一种,其他的评估方法还有留出法和自主法。
“留出法” (hold-out)直接将数据集D 划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T, 即D=SUT, S和T的交集为空,在S 上训练出模型后,用T 来评估其测试误差,作为对泛化误差的估计。
自助法在数据集较小、难以有效划分训练/测试集时很有用;然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。因此,在初始数据量足够时,留出法和交叉验证法更常用一些。
在这里插入图片描述

3.查准率与查全率

在这里插入图片描述
查准率和查全率是一对矛盾的度量.一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。例如,若希望将好瓜尽可能多地选出来,则可通过增加选瓜的数量来实现,如果将所有西瓜都选上,那么所有的好瓜也必然都被选上了,但这样查准率就会较低;若希望选出的瓜中好瓜比例尽可能高,则可只挑选最有把握的瓜, 但这样就难免会漏掉不少好瓜,使得查全率较低。通常只有在一些简单任务中7 才可能使查全率和查准率都很高。
在这里插入图片描述
P-R 图直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时,若一个学习器的P-R 曲线被另一个学习器的曲线完全"包住",则可断言后者的性能优于前者,例如图2 . 3 中学习器A 的性能优于学习器C; 如果两个学习器的P-R 曲线发生了交叉,例如图2 . 3 中的A 与B ,则难以一般性地断言两者孰优孰劣,只能在具体的查准率或查全率条件下进行比较。然而,在很多情形下,人们往往仍希望把学习器A 与B 比出个高低. 这时一个比较合理的判据是比较P-R 曲线节面积的大小,它在一定程度上表征了学习器在查准率和查全率上取得相对"双高"的比例。但这个值不太容易估算, 因此,人们设计了一些综合考虑查准率、查全率的性能度量。
“平衡点” (Break-Event Point,简称BEP)就是这样一个度量,它是" 查准率=查全率"时的取值3 例如图2.3 中学习器C 的BEP 是0 . 64,而基于BEP
的比较,可认为学习器A 优于B。
但BEP 还是过于简化了些,更常用的是F1 度量:
在这里插入图片描述

4.方差与偏差

在这里插入图片描述
我们通常会过将训练集和交叉验证的代价函数误差与多项式次绘制在同一张 图表上来帮助分析:
在这里插入图片描述
当 对于训练集,当 d较小时,模型拟合程度更低,误差大;随着d的增长,拟合程度提 的增长,拟合程度提高,误差减小。
对于交叉验证集,当 d较小时,模型拟合程度低,误差大;但是随着d的增长,误差呈现先减小后增大的趋势,转折点是我们模型开始过拟合训练数据集时候。
在这里插入图片描述
在这里插入图片描述

  1. 获得更多的训练实例——解决高方差
  2. 尝试减少特征的数量——解决高方差
  3. 尝试获得更多的特征——解决高偏差
  4. 尝试增加多项式特征 ——解决高偏差
  5. 尝试减少正则化程度 λ——解决高偏差
  6. 尝试增加正则化程度 λ——解决高方差
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值