吴恩达机器学习 第二章 模型评估与选择
2.1经验误差与过拟合
经验误差
m样本数量,Y样本正确结果,预测结果Y’——>错误a个
error rate:E=a/m 误差:|Y-Y’| accuracy=1-E
训练集上的误差称为“训练误差”或“经验误差”,新样本上的误差称为“泛化误差”
过拟合
把训练样本自身的一些特点当作所有潜在样本都具有的性质,泛化能力下降
欠拟合容易克服,而过拟合较为麻烦且无法彻底避免
2.2评估方法
通常可利用实验测试对泛化误差进行评估并做出选择,因此构造测试集。
数据集D产生训练集S和测试集T的方法
1.留出法:直接划分为两个互斥的集合。
注意:
1.尽可能保持分布的一致性,如分类问题可采用“分层采样”
2.若干次随机划分、重复进行试验评估,返回平均值作为留出法的结果
3.S通常为(2/3-4/5)D
2.交叉验证法: 分层取样得到k个互斥子集Di,每次取k-1个子集的并集为S,余下的为T,返回k次测试结果的均值,“k折交叉验证“。
为减小因样本划分不同而引入的差别,k折交叉验证常要随机使用不同的划分重复p次,”p折k次交叉验证“。
令k=m样本数,模型与D相近,计算开销大,”留一法“。
3.自助法:自助采样(有放回随机采样)生成测试集D‘,适用于数据集较小的情况。
4.调参与最终模型
对每种参数配置都训练出模型,可行性较低
常用做法:对每个参数选定范围和变化步长
区分:训练集,验证集,测试集;在这里验证集即为上述测试集,而测试集常用来指实际遇到的数据
2.3性能度量
1. 衡量模型泛化能力的评价标准
回归任务常用:均方误差
分类任务常用:错误率E,精度acc
2. 查准率\查全率与F1
对于二分类问题,可依据真实类别和学习器预测类别的组合划分为真正例(TP),假正例(FP),真反例(TN),假反例(FN)(相对预测结果而言),构成混淆矩阵.
查准率P(预测正例结果中的准确率,分母是预测结果)和查全率R(真实正例中被预测完全率,分母是真实结果)分别定义为
P-R反向关系
P与R相互矛盾,通常只有在一些简单任务中,才可能同时高.
注意阈值是变量,不同门槛查准率和查全率反向变化
- P-R图
根据学习器预测结果排序,前面是学习器认为“最可能”是正例的样本,最后是“最不可能”的样本.按顺序逐个把样本作为正例进行预测,计算出当前的查全率、查准率.以查准率为纵轴、查全率为横轴作图,显示该曲线的图称为“P-R图”.
模型优劣比较:
1.曲线下面积大小,包住关系
2.平衡点:比较P=R时的取值BEP
- F1度量
在实际应用中,查全率与查准率的偏好有些所不同:商品推荐与逃犯追踪
定义
可表达对查准率与查全率的不同偏好:β=1为标准F1;β>1时查全率影响大;β<1时查准率影响大.
n个二分类混淆矩阵:宏查全率与微查全率
3. ROC与AUC
- ROC曲线
纵轴:真正例率TPR;横轴:假正例率FPR
模型优劣比较:曲线下面积AUC大小,包住关系
4. 代价敏感错误率与代价曲线
非均等代价:不同类型的错误造成的代价不同
在非均等代价情况下,评价目标从最小化错误次数变为最小化总体代价.
ROC曲线不能直接反应总体代价,而代价曲线可以得到该目的.
横轴为正例概率代价,p为样本为正例的概率
纵轴是归一化代价,FPR假正例率,FNR=1-FPR假反例率
绘制:ROC曲线上每一点对应了代价平面上的一条线段,设ROC曲线上点的坐标为(TPR,FPR),则可相应计算出FNR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价;如此将ROC曲线上的每个点转化为代价平面上的一条线段,然后取所有线段的下界,围成的面积即为在所有条件下学习器的期望总体代价.
2.4比较检验
基于统计假设检验,本节默认以错误率为性能度量.
2.4后续假设检验内容略(复杂、应用少)
2.5偏差与方差
使用样本数相同的不同训练集产生方差var(x),度量训练集变动的数据扰动的影响
噪声表达了期望泛化误差的下界,说明学习问题本身的难度
期望输出与真实标记的差别称为偏差bias,刻画算法的拟合能力
期望泛化误差E(f;D)=bias2+var(x)+噪声2
偏差-方差分解说明,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小。
一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境.给定学习任务,假定我们能控制学习算法的训练程度,则在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度的加深,学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导了泛化错误率;在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合。