1.2基本术语
假设:学得模型对应了关于数据的某种潜在的规律
真相(ground-truth):数据的潜在规律
假设空间:所有假设构成的集合
归纳偏好(简称"偏好"):机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必须有其归纳偏好
奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个
第2章
2.1经验误差和过拟合
训练误差(training error)/经验误差(empirical error):学习器在训练集上的误差
泛化误差(generalization error):学习器在新样本上的误差
过拟合(overfitting):学习器把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降
欠拟合(underfitting):学习器对训练样本的一般性质尚未学好
过拟合无法彻底避免,所能做的只能是缓解
2.2评估方法
使用测试数据的测试误差作为泛化误差的近似,对数据集的处理:
1、留出法(hold-out):直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另个作为测试集T
常见的做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试。
2、交叉验证法(cross validation)
现将数据集D划分为k个大小相似的互斥子集,然后每次用k−1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可以获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这个k的测试结果均值。
3、自助法(bootstrapping)
给定包含m个样本的数据集D,我们对它进行采样产生数据集D′:每次随机从D中挑选一个样本,将其拷入到D′中,重复执行m次后,就得到了包含m个样本的数据集D′,这就是自助采样的结果。
4、调参与最终模型
参数调节(parameter tuning):学习算法都有参数的设定,参数的不同,学得模型的性能会有显著的差别。对算法参数的设定就是调参。
给定包含m个样本的数据集D,我们只用了一部分数据训练模型。因此,在模型选择完成后,学习算法和参数配置已选定,此时应该用数据集D重新训练模型。这个模型在训练过程中使用了所有的样本,这才是最终模型。
2.3 性能度量
性能度量(performance measure):衡量模型泛化能力的评价标准。