西瓜书学习总结
1. 第一章节内容概述
第一章绪论主要是讲了机器学习的发展史和一些常用的基本属于和规范吧,这里不做过多的叙述,重点看看第二章:
2. 第二章主要是讲了机器学习的评估模型的几个方法
2.1 经验误差与过拟合
-
训练误差(training error)或经验误差(empirical error): 学习器在训练集上的误差。
-
泛化误差(generalization error): 在新样本上的误差。
-
过拟合(overfitting): 当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本中自身的一些特点当作了所有潜在样本都会具有的一般性质,这种导致泛化性能下降的现象称为过拟合。过拟合是无法彻底避免的,所能做到的只是“缓解”,或者说减小其风险。
-
欠拟合(underfitting): 相对于过拟合现象,指对训练样本的一般性质尚未学好。欠拟合通常是由于学习能力低下而造成的,则比较容易克服。 欠拟合和过拟合对比
2.2 评估方法
-
留出法(hold-out): 直接将数据集D划分为两个互斥的集合,一个集合为训练集S,另一个作为测试集T。但由于训练集划分部分给了测试集,导致训练集的缩小使得降低了评估结果的保真性(fidelity)。常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试。
-
交叉验证法(cross validation): 将数据集划分成k个大小相似的互斥子集,遍历训练k次,每次使用k-1组子集的并集作为训练集,余下的那个子集作为测试集;最终返回的是这k个测试结果的均值。交叉验证法评估结果的稳定性喝保真性在很大程度上取决于k的取值,所以为强调这一点,通常把交叉验证法又称为“k折交叉验证”(k-fold cross validation)。当k=样本数目时,则得到交叉验证法的一个特例:留一法(Leave-One-Out,简称LOO)。留一法使用的训练集与初试数据集相比只少了一个样本,因此评估结果往往被认为比较准确,但当数据集比较大时,训练m个模型的计算开销可能是难以忍受的。
-
自助法(bootstrapping): 从包含m个数据集D中自助有放回的采样m次,生成数据集D’用作训练集。自助法在数据集较小、难以有效划分训练/测试集时很有用。
-
调参(parameter tuning)与最终模型: 在进行模型评估与选择时,除了要对适用学习算法进行选择,还需对算法参数进行设定,这就是通常所说的“参数调节”或简称“调参”。现实中常用的做法是对每一个参数选定一个范围和变化步长,例如在[0, 0.2]范围内以0.05为步长,则实际要评估的候选参数值有5个。
2.3 性能度量
对学习器的泛化性能进行评估,不仅需要有可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量(performance measure)。
-
错误率
-
精度
-
查准率(precision)与查全率(recall)
-
评价标准如下:
-
根据一个学习期的PR曲线是否被另一个的包住:包住者好
-
根据PR曲线下面积大小:越大越好
-
根据平衡点(Break-Event Point,BEP,即查准率=查全率时刻):越大越好
-
根据F1度量:F1 = 2PR/P+R
-
根据F1度量的一般形式Fβ = (1+β^2)PR / (Pβ^2)+R
-
根据宏观查准率、查全率(macro-P、macro-R):先算率再平均
-
根据TP, FP, TN, FN的平均值,计算出微查准率(micro-P)等:先平均再算率
-
F1度量: 基于查准率与查全率的调和平均定义的。F1是 Fβ=((1+β^2)PR) / ((β^2 * P) + R) Fβ=((1+β2)∗P∗R)/((β2∗P)+R) 当β=1时的特殊情况,此时查全率与查准率的相对重要性相同;对于加权平均调和 Fβ Fβ,当β>1时查全率有更大影响;当β<1时查准率有更大影响。
2.4 比较检验
-
假设检验(hypothesis test)
-
交叉验证t检验
-
5x2交叉验证
-
McNemar检验
-
Friedman检验
-
Nemenyi后续检验
2.5 偏差与方差
-
偏差 偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。
-
方差 方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
-
噪声 噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
-
偏差-方差分解(bias-variance decomposition)
-
偏差-方差窘境(bias-variance dilemma):
3. 最后的话
这里稍微总结了一下西瓜书第一二章节的内容,个人感觉第二章可以放在后面来看。