【周志华机器学习】模型评估与选择

经验误差与过拟合

训练误差:训练集上的误差
泛化误差:新样本上的误差
过拟合:将特殊性质当作普遍规律,以至于泛化能力下降

欠拟合较好解决,在决策树扩展分支、神经网络增加训练轮数。但过拟合很麻烦,无法彻底避免,只能缓解。

在机器学习从多种模型中选择一个时,叫做模型选择,理想方案是对泛化误差进行评估。

评估方法

以测试集上的测试误差近似泛化误差

留出法

直接将数据集分为两个互斥的集合,一个做为训练集,一个做为测试集。在测试集中评估测试误差,当作对泛化误差的估计。
一般将大约2/3-4/5样本作为训练集,其余作为测试集。

交叉验证法

将数据集划分为K个大小相同的互斥子集,每次用k-1个子集的并集作为训练集,剩余的作为测试集。进行K次训练和测试,取均值。
在这里插入图片描述

自助法

给定包含M个样本的数据集D,对他采样:每次随机从D中挑选一个样本拷贝放入D1,再将样本放回D,保证下一个仍有可能被采样到,重复M次。这样,数据集D中约有36.8%的样本未出现在D1中,将D1作为训练集,D/D1作为测试集。这样,仍有m个样本用作训练,没有用作训练的其余样本作为训练。这样的测试结果称为外包估计
自助法常在数据集小时使用,数据集大时,常用留出法和交叉验证法。

调参

现实中常用的做法,是对每个参数选定一个范围和变化步长。

性能度量

衡量模型泛化能力的评价标准。什么样的模型是好的,不仅取决于算法和数据,还取决于任务需求。

回归任务常用的性能度量是均方误差
在这里插入图片描述

错误率与精度

错误率:分类错误的样本数占总样本数的比例
在这里插入图片描述
精度:分类正确的样本数占总样本数的比例;

查准率、查全率与F1

真正例:true positive TP
假正例:false positive FP
真反例:true negative TN
真正例:false negative FN
TP+FP+TN+FN=样例总数
在这里插入图片描述查准率P
在这里插入图片描述
查全率R
在这里插入图片描述
一般来说,查全率与查准率矛盾。

P-R曲线:以查准率为纵轴、查全率为横轴作图
在这里插入图片描述
平衡点:查全率等于查准率。
若一个模型平衡点高于另一个模型,则认为更优。

**F1度量:**能让我们表达出对查准率/查全率的不同偏好
在这里插入图片描述
其中,其中 ß>O 度量了查全率对查准率的相对重要性,ß = 1时退化为标准的 F1; ß>1 时查全率有更大影响 ;ß < 1时查准率有更大影响.

ROC与AUC

学习器对测试样本的评估结果一般为一个实值或概率,设定一个阈值,大于阈值为正例,小于阈值为负例,因此这个实值的好坏直接决定了学习器的泛化性能,若将这些实值排序,则排序的好坏决定了学习器的性能高低。ROC曲线正是从这个角度出发来研究学习器的泛化性能,ROC曲线与P-R曲线十分类似,都是按照排序的顺序逐一按照正例预测,不同的是ROC曲线以“真正例率”(True Positive Rate,简称TPR)为横轴,纵轴为“假正例率”(False Positive Rate,简称FPR),ROC偏重研究基于测试样本评估值的排序好坏。
在这里插入图片描述
在这里插入图片描述

若一个学习器A的ROC曲线被另一个学习器B的ROC曲线完全包住,则称B的性能优于A。若A和B的曲线发生了交叉,则谁的曲线下的面积大,谁的性能更优。ROC曲线下的面积定义为AUC(Area Uder ROC Curve),不同于P-R的是,这里的AUC是可估算的,即AOC曲线下每一个小矩形的面积之和。易知:AUC越大,证明排序的质量越好,AUC为1时,证明所有正例排在了负例的前面,AUC为0时,所有的负例排在了正例的前面。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值