(一)两种误差
1.训练误差(经验误差):样本的测试集(样本的一部分,测试集有不同划分方法)的误差
2.泛化误差:新样本上的误差
(二)评估方法(或者说是测试集的选取方法)
1.留出法
分层采样,使训练集和测试集类别比例尽量一样。
适用于数据较多的情况。
2.交叉验证法
k折交叉验证,分k组,每次用k-1个组作为训练集,一组作为测试集(k个组都会轮一遍,所以是k次)。
适用于数据较多的情况。
ps:10次10折交叉验证法和100次留出法都是训练/测试一百次
3.自助法
从含有m个数据的样本集D随机不放回取样m个,形成新样本集D',D'作为训练集,D\D'作为测试集。
适用于数据较少的情况。
(三)性能度量
1.错误率与精度
精度=1-错误率
2.查准率与查全率(见书上公式2.8和2.9)
查准率:预测的正例中有多少预测对了(是真正的正例)
查全率:真正的正例中有多少被模型预测出来了
PR曲线:y轴:查准率 x轴:查全率
平衡点(BEP):查准率=查全率 的点
F1:见P32公式
3.ROC:
纵轴—真正例率TPR:正例中有多少被检测出
横轴—假正例率FPR:反例中有多少没被检测出(被模型判定为正例)
AUC:RUC曲线的面积