第一章 绪论
1.机器学习的主要内容
机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即“学习算法”(Learning algorithm)
2.基本术语
数据集:这些记录的集合成为数据集
示例:数据集中每条记录是关于一个事件或对象的描述,称为“示例”或“样本”
属性:反映事件或对象在某方面的表现或性质的事项,例如:“色泽”、“根蒂”等
属性值:属性上的取值,例如“青绿”、“蜷缩”等
特征空间:例如把“色泽”、“根蒂”、“敲声”作为三个坐标轴,就会形成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,空间中的每个点就对应一个坐标向量,因此可以把一个实例称为一个“特征向量”(数据向量化是机器学习的重要步骤)
维数:样本空间D中包含了m个示例,每个示例中是d维的样本空间,d称为维数。
3.机器学习分类
监督学习:样本有标记(如是否为好瓜)
欲预测的是离散值,此类学习任务称为“分类”
欲预测的是连续值,此类学习任务称为“回归”
无监督学习:样本无标记
聚类是无监督学习的典型代表
4.模型的泛化能力
泛化能力是指学得模型适用于新样本的能力,能够反映出样本空间特性的训练集越有可能经过学习得到具有强泛化能力的模型。一般而言,训练样本越多,我们得到的关于未知分布的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。
归纳和演绎是科学推理的两大基本手段。前者从特殊到一般,从具体的事实归结出规律;后者则是一般到特殊,由基础原理推导出具体情况。“从样例中学习”的机器学习是一种归纳学习。
第二章 模型的评估与选择
1.经验误差与过拟合
训练误差(training error)即经验误差(empirical error):学习器在训练集上的误差。
泛化误差(generalization error):学习器在新样本上的误差。
过拟合(over fitting):把训练样本的一些特点当作所有潜在样本的一般性质,导致泛化能力下降。
欠拟合(under fitting):训练样本的一般性质尚未学好。
2.评估方法
2.1留出法(hold-our)
留出法直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。
D=S∪T, S∩T=∅
(训练集和测试机应尽量保证数据分布的一致性,避免因数据划分过程引入的额外偏差而对最终结果产生影响。)
2.2交叉验证法(cross validation)
先将数据集划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用k - 1 个自己的并集作为训练集S,剩下的那个作为测试集,这样就能获得 k组训练集/测试集,从而可以进行k轮训练和测试,最终返回的结果是k个测试结果的均值。
(显然,交叉验证的结果的稳定性和保真性很大程度上取决于k的大小。)
2.3自助法(bootstrapping)
自助法以自助采样(有放回采样)为基础。给定m个样本构成数据集D,对其采样得到数据集D’ :每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集中,使得该样本在下次采样的时候仍有可能被采到;重复执行m次,得到有m个样本的D’。
显然,D中的有一部分样本会在D’中多次出现,另一部分样本不会出现。
样本在m次采样中始终不被采到的概率为
( 1 − 1 / m ) m (1-1/m)^m (1−