周志华机器学习(西瓜书)第二章模型评估与选择

(一)两种误差

1.训练误差(经验误差):样本的测试集(样本的一部分,测试集有不同划分方法)的误差

2.泛化误差:新样本上的误差

(二)评估方法(或者说是测试集的选取方法)

1.留出法

分层采样,使训练集和测试集类别比例尽量一样。

适用于数据较多的情况。

2.交叉验证法

k折交叉验证,分k组,每次用k-1个组作为训练集,一组作为测试集(k个组都会轮一遍,所以是k次)。

适用于数据较多的情况。

ps:10次10折交叉验证法和100次留出法都是训练/测试一百次

3.自助法

从含有m个数据的样本集D随机不放回取样m个,形成新样本集D',D'作为训练集,D\D'作为测试集。

适用于数据较少的情况。

(三)性能度量

1.错误率与精度

精度=1-错误率

2.查准率与查全率(见书上公式2.8和2.9)

查准率:预测的正例中有多少预测对了(是真正的正例)

查全率:真正的正例中有多少被模型预测出来了

PR曲线:y轴:查准率 x轴:查全率

平衡点(BEP):查准率=查全率 的点

F1:见P32公式

3.ROC:

纵轴—真正例率TPR:正例中有多少被检测出

横轴—假正例率FPR:反例中有多少没被检测出(被模型判定为正例)

AUC:RUC曲线的面积

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值