名词解释
错误率(error rate):分类错误的样本数占样本总数的比例
即
,E表示错误率,a表示分类错误的样本数,m表示样本总数;
精度(accuracy):1-错误率
训练误差(training error):学习器在训练集上的误差
泛化误差(generalization error):学习器在新样本上出现的误差
过拟合(overfitting):学习器将训练样本中属于特殊的特征当作所有潜在样本的基本特征
欠拟合(underfitting):与过拟合相对
模型选择问题
对于模型选择问题目的是对候选模型的泛化误差评估,选择泛化误差最小的模型,可以通过实验测试对学习器的泛化误差进行评估和选择
评估方法(留出法和交叉验证法较为常用)
留出法(hold-out):
将数据集D划分为两个互斥的集合,一个作为训练集S,一个作为测试集T,在S上训练出模型后,用T来评估其测试误差,作为泛化误差的估计
训练集和测试集的划分要尽可能保持数据的一致性,避免引入额外的偏差对最终结果产生影响。由于单次留出法得到的评估结果不够稳定,所以在采用留出法的时候一般采用若干次速记划分,重复进行实验评估后取均值作为留出法的评估结果。留出法的优点是简单直接,但缺点是对数据集的划分比例和随机性比较敏感,可能导致评估结果不稳定。
当训练集S接近数据集D时,此时的T比较小,该模型得到的评估结果与原本的模型结果相差较大,降低了评估结果的保真性(fidelity),因此常用2/3~4/5的样本用于训练,剩下样本用于测试。
交叉验证法(crossvalidation):计算复杂度高
将数据集分成训练集和测试集,即将数据集D划分为k个大小相似的互斥自己,每次用k-1个子集的并集作为训练集,剩下的为测试集,并重复k次,得到模型的预测效果和参数选择,因此交叉验证法又叫做k折交叉验证。
当数据集D中的m个样本,使得k=m时,此时交叉验证法又叫做留一交叉验证,此方法不具有随机样本划分,每个子集都只有一个样本,该方法的评估结果与实际评估模型相似,但当数据集样本过大时,考虑调参问题,其评估结果不一定比其他评估方法好。交叉验证分析法的优点是可以充分利用数据,避免过拟合和选择偏差,提高模型的泛化能力。
自助法:
在数据集D中随机抽取m个样本到数据集D’重复m次之后得到的数据集D’中可能存在有些样本多次重复出现,有些样本不存在的情况,这属于随机抽取的结果。由于
,可知通过自助法的评估模型有1/3的数据不在训练集的样本用于测试,得到的结果称为“包外估计”。
该方法用于数据集较小,难以有效划分训练集和测试集时效果较明显。
性能度量
模型的性能度量用于衡量泛化能力的评价标准,其中分类任务常用的性能度量为错误率与精度,查准率、查全率和F1。
错误率与精度:(适用于二分类任务,多分类任务)
错误率:
精度:1-E(f;D)F
查准率、查全率和F1:
TP:真正例,FP:假正例,TN:真反例,FN:假反例,其中TP+FP+TN+FN=样本总数
查准率:
查全率:
查准率越高,查全率偏低;反之,查准率越低,查全率偏高。
F1度量:
,该公式为加权调和平均,
>0度量查全率对查准率的相对重要性,
>1时查全率影响更大,
<1时查准率影响更大。
当面对多个二分类混淆矩阵时,对应的查准率和查全率将改动为求每个二分类混淆矩阵的平均值,得到的值分别为宏查准率,宏查全率和宏F1,这里不多阐述。
ROC曲线:用于研究学习器的泛化性能
纵轴为真正例率TRP,横轴为假正例率FRP
AUC:即为ROC曲线下的面积,通常用于评定ROC曲线交叉的两个学习器的性能的好坏
代价敏感错误率
通过构建代价矩阵,用表示第i类样本预测为第j类样本的代价,一般情况下,当i=j时,cos=0。若将第0类的样本为正类,第1类的样本为反类,得到代价错误率的公式为:
该公式中的0,1表示i,j特例时的情况,分析具体问题时i,j不同。
比较检验
比较学习器性能的方法有假设验证,交叉验证t检验,McNemar检验,Friedman检验和Nemenyi后续验证。
偏差与方差
偏差:预期结果与真实结果的偏离程度,刻画学习算法的拟合能力
方差:同样大小的训练集变动所导致的学习性能的变化,刻画数据扰动所造成的影响
偏差-方差分解:解释学习算法泛化性能的一种重要工具。
泛化误差可分解为偏差、方差和噪声之和。
“偏差-方差窘境”:说明偏差与方差的冲突。