第一章
1.1基本术语
数据集:记录的集合,每条记录(示例,样本)是关于一个事件或对象的描述
属性(特征):“色泽”,“根蒂”,“敲声”
属性值:属性上的取值“青绿”,“乌黑”
属性空间(样本空间,输入空间):属性张成的空间
训练数据:训练过程中的使用的数据
测试样本:被预测的样本
泛化能力:学得模型适用于新样本的能力
1.2归纳偏好
归纳演绎:前者是从特殊到一般的“泛化”过程,即从具体的事实归结成一般性规律;后者则是从一般到特殊的“特化”过程,即从基础原理推演出具体状况。
归纳偏好:机器学习算法中在学习过程中对某种类型假设的偏好。归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好性能。
第二章
2.1经验误差和过拟合
错误率:分类错误的样本数占样本总数的比例
精度:1-错误率
误差:学习器的实际预测输出与样本的真实输出之间的差异
训练误差(经验误差):学习器在训练集上的误差
泛化误差:学习器在新样本上的误差
过拟合:学习器已经把训练样本本身的一些特点当做了所有潜在样本都会具有的一般特质,导致泛化性能下降(学习能力过强)
欠拟合:对训练样本的一般性质尚未学好(学习能力低下)
2.2评估方法
通过实验测试来对学习器的泛化误差进行评估并进而做出选择,所选测试集应该尽可能与训练集互斥,即测试样本尽量不在训练集中出现、未在训练过程中使用过
留出法:将数据集划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集,两者的并集为整个数据集,两者的交集为空集。在训练集上训练出模型后,用测试集评估其测试误差,作为对泛化误差的估计。(数据量足够时使用)
交叉验证法:先将数据集划分为k个大小相似的互斥子集,每个子集尽可能保持数据分布的一致性,即从数据集中通过分层采样得到的。然后,每次用k-1个子集的并集作为训练集,余下那个子集作为测试集,从而进行k次训练和测试,最终返回的是k个测试结果的均值(数据量足够时使用)
自助法:给定包含m个样本的数据集,对它们进行采样产生数据集:每次随机从数据集中挑选一个样本,拷贝放入一个新的数据集中,然后再将这个样本放回初始数据集,使得该样本在下次采样中仍有可能被采到。这个过程重复执行m次后,可得到包含m个样本的新数据集。(数据集较小的时候使用)
2.3性能度量
错误率与精度
查准率、查全率、F1
ROC(受试者工作特征曲线)
AUC(ROC曲线下的面积)
代价敏感错误率
代价曲线
2.4比较检验
假设检验
交叉验证t检验
McNemar检验
Friedman 检验和Memenyi后续检验