时间:
10/13 P23~P36
10/14 结束CH2(跳过了比较检验)
1、经验误差和过拟合
(1)错误率(error rate):分类错误的样本占总样本数的比例
(2)训练误差(经验误差):学习器在训练集上的误差
(3)泛化误差:在新样本上的误差
(4)测试误差:学习器在测试集上的误差,经常作为泛化误差的近似
(5)过拟合(overfitting):在训练时,将训练样本的一些自身特点当成了所有潜在样本都有的一般性质
2、训练集和测试集的划分
(1)留出法(hold-out):直接将总数据集合划分为两个互斥的集合(进行若干次随机划分、重复进行实验后取平均值)
(2)k折交叉验证法(k-fold cross validation):将数据集D通过分层采样划分为k个大小相似的互斥子集,每次采用k-1个子集的并集作为训练集,剩下的作为测试集;进行K次训练和测试,返回这k次测试结果的均值。
a.k常取10
b.通常还要使用不同的子集划分方式重复p次,最常见10次10折交叉验证
c.k=1时为留一法(Leave-One-Out):不受子集划分方式影响,但开销过大
(3)自助法(bootstrapping) : 每次进行自助采样(放回采样),在数据量小,难以有效划分训练测试集时使用
3、调参与最终模型
(1)学习算法很多参数选择都是在实数范围内,因此需要进行步长设置,实验在一定范围内的候选值
(2) 验证集(validation set) :模型评估与选择中用于评估测试的数据集
(3)测试数据:学得模型在实际使用中遇到的数据,用于判断模型的泛化能力
4、性能度量
回归任务度量:
(1)均方误差(mean squared error):
分类任务度量:
(1)错误率:分类错误的样本数占样本总数的比例
(2)精度:分类正确的样本数占样本总数的比例
(3)查准率、查全率、F1:
混淆矩阵:
a.查准率(precision):预测为正且实为正 / 所有被预测为正
b.查全率(recall):预测为正且实为正 / 所有实为正
c.P-R图(P31):比较平衡点BEP(查准率=查全率 时的取值),即与y=x的交点,交点值越大,则该学习器性能越好
d.F1度量:查准率和查全率的调和平均
(不使用算数平均,防止结果虚高,调和平均有某种“惩罚机制”)
F-beta:P32
(4)ROC和AUC
a.ROC:
横轴:真正例率: TP /(TP + FN)
纵轴:假正例率: FP/(TN + FP)
b.AUC: ROC曲线下的面积
(5)代价敏感错误率与代价曲线
不同分类错误有非均等代价(unequal cost)
5、偏差与方差
(1)偏差(bias):期望输出与真实标记的差别;刻画了算法本身的学习能力
(2)方差:度量了同样大小的训练集的变动导致的学习性能的变化,即数据扰动造成的影响
(3)噪声:数据集中标记与真实标记的差异;表达了当前任务上任何算法达到的期望泛化误差的下届,即问题本身的难度
对回归任务,采用简单的化简工作(P45),可得到:
泛化误差 = 偏差 + 方差 + 噪声
“偏差-方差窘境”:
对学习算法的不同训练程度:
当训练不足时,拟合能力不够,偏差主导了泛化错误率,训练数据的扰动影响不大
当训练充足后,拟合能力足够强,方差将主导泛化错误率,训练数据扰动影响较大
学习器学习了训练数据本身的非全局特性,则将发生过拟合。