一. 基本术语
数据集: 需要进行数学分析的数据集合
示例/样本: 数据集中,每条记录都是关于一个事件or一个对象的描述,这每条记录都被称为“示例or样本”
属性: 反应事件or对象在某方面的属性or性质的事项,就是属性。
属性值: 属性上的取值,即为“属性值”。
属性空间/样本空间/输入空间: 属性张成的空间。一个属性,就是一根坐标轴,就是一个维度。
特征向量: 由于空间中的每个点,对应一个坐标向量。相应的,一个示例/样本,也被称作一个“特征向量”
维数: 对于某一个属性空间而言,维数其实就是属性的数量。
标记: 关于示例的结果的信息。比如
二、模型评估与选择
1、经验误差与过拟合
“错误率”: 是指分类错误的样本数占样本总数的比例,即是m个样本中a个样本分类错误,错误率为E=a/m;
“精度”:1-E
“误差”: 学习器的真实输出与预测输出的差异,误差常分为 “训练误差”(训练集)和 “泛化误差” (新样本)。
过拟合: 学习能力“过强”。将训练集本身特性当作所有潜在样本的统一性质,使得泛化性能下降。
欠拟合:学习能力“过弱”。对训练集样本本身特性都未能学好。
2、评估方法
通过实验测试来对学习器的泛化误差进行评估并作出选择。需使用一个“测试集”来测试学习器对新样本的判别能力,然后其中的“测试误差”作为泛化误差的近似。特别注意测试集和训练集应该相互斥。
留出法:
将数据集D分为互斥的两个集,一个作为训练集S,一个作为测试集T,即D=S∪T,S∩T=空集,在S上训练出模型后,用T来评估测试误差,作为对泛化误差的估计。一般来说,将2/3~4/5的样本用于训练,剩余样本用于测试。
交叉验证法:
将数据集D分为k个大小相似的互斥子集,每个子集尽可能保持数据分布的一致性;然后每次用k-1个子集的并集作为训练集,剩下作为测试集,最终返回的是k个测试结果的均值。
自助法:
以自助采样法为基础,给定包含m个样本的数据集D,我们对它采样产生数据集D’:每次随机从D中挑选样本加入D’中,再将该样本放回D中;重复m次此操作,就得到了自助采样的结果。显然,D中有一部分样本会在 D’中多次出现,而另一部分样本不出现。可以做一个简单的估计,样本在 m 次采样中始终不被采到的概率是(1-1/m)^m,取极限为 1/e,得到约为0.368。没有在训练集中出现的样本用于测试,又称外包估计(out of bag estimate)
调参与最终模型:
在研究对比不同算法的泛化性能时,我们用测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参。
3.性能度量
对于二分类的问题,可将样例根据真实类别与学习器预测类别的组合划分为真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN),则TP+FP+TN+FN=样例总数,分类结果的混淆矩阵如下图。
表2.1分类结果混淆矩阵
Spackman, 1989.与之前介绍的P-R曲线相似,我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了“ROC曲线”.与P-R曲线使用查准率、查全率为纵、横轴不同,ROC曲线的纵轴是“真正例率”(True Positive Rate,简称TPR),横轴是“假正例率”(False PositiveRate,简称FPR),两者分别定义为
从定义可知,AUC可通过对ROC曲线下各部分的面积求和而得.假定ROC曲线是由坐标为{(x1,y1),(x1,y2)…(xm,ym)}的点按序连接而形成(x1=0,xm=1),则AUC可估算为
Lrank对应的是ROC曲线之上的面积,则有
代价敏感错误与代价曲线
“代价敏感”错误率
正例的概率代价: