要点:
留出法
交叉验证法
自助法
性能度量
PR曲线
ROC和AUC曲线、
代价敏感错误率、
假设检验
T检验
偏差与方差
模型评估方法
泛化误差评估:
训练集 training set : 用于训练模型
验证集 validation setvalidation set : 用于模型选择
测试集 test settest : 用于模型泛化误差的近似
训练集和测试的产生:
留出法
交叉验证法
自助法
性能度量,PR曲线、ROC曲线和代价曲线,假设检验包括二项式检验、T检验和叉T检验以及偏差方差分解。模型性能评估主要是对模型的泛化误差进行评估,需要使用测试集来测试模型对新样本的判别能力,然后以推测误差作为泛化误差的近似;我们还需要一个验证集,用来去对模型进行选择,或者是用于对模型的超参数进行选择。从数据集产生训练集S和测试集T一般有以下几种方法,留出法、交叉验证法、自助法等。
一、留出法(Hold Out)
留出法是直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,它们的交集为空,并集为数据集。二分类时如果有一百个数据样本,划分训练集70测试集30,如果30个测试集里面有9个发生了预测错误,则错误率为30% 精度为70% 。留出法需要注意的几个方面:训练集/测试集的划分尽量可能保持数据分布的一致性,避免引入额外偏差;维持S和T中正反例相平衡;其次要采用多种划分方式对初始数据集进行分割,可以采用若干随机划分进行重复实验。留出法存在一些问题:由于对D进行划分时,S大则T小,较小的测试集测出的误差也就是泛化误差不太可靠;T大则S小,那么获得的模型就可能不太可靠。
二、交叉验证法 (cross validation)
交叉验证法也叫k-fold cross validation,它是将D划分为k个大小相等的互斥子集,k-1个子集为并集为训练集,1个测试集,它们构成10次10折交叉验证。把10次的测试结果取平均值最后得到最终结果。
三、自助法 (boostrapping)
上述的两种方法,实际的训练集比D小,造成了训练出的模型的估计偏差,如何解决这个问题呢?请看自助法。给定包含m个样本的数据集,对它进行采样