第一章 绪论
1.1 引言
1.机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。主要研究的内容是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。
1.2 基本术语
1.一组记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”
2.反映事件或对象在某方面的表现或性质的事项称为“属性”或“特征”。
3.属性上的取值称为属性值。属性张成的空间称为“属性空间”、“样本空间”。
4.一般地,令D={x1,x2,...,xm}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例xi=(xi1;xi2;...;xid)是d维样本空间X中的一个向量,xi属于X,其中xij是xi在第j个属性上的取值,d称为样本xi的“维数”。
5.从数据中学习模型的过程,称为学习 learning 或训练 training。训练过程中,使用的数据集合,称为训练集 training data,其中的样本,称为训练样本 training sample。学得模型对应了数据中的潜在规律,称为假设 hypothesis。潜在规律的本身,称为真相 ground truth。学习的过程是为了找到或逼近真相。有时将模型称为学习器 learner,看做学习算法在给定数据和参数空间上的实例化。
6.预测的是离散值,此类任务称为分类 classification,预测的是连续值,此类任务称为回归 regression。使用带标记信息的示例。预测任务,通过对训练集 进行学习,建立一个从输入空间 到输出空间 的映射 。聚类 clustering,将训练集中的数据集自动划分为若干组,每组称为一个簇 cluster,训练样本通常是不拥有标记信息的。根据训练数据是否有标记信息,分为监督学习 supervised lerning和无监督学习 unsupervised learning,前者为分类和回归,后者为聚类。
7.学得模型适用于新样本的能力,称为泛化能力 generalization。通常假设样本空间中全体样本服从一个未知分布 ,获得的样本都是独立地从这个分布上采样获得的,即“独立同分布 independent and identically distributed”。一般而言,训练样本越多,得到关于 的信息越多,就越有可能通过学习获得强泛化能力模型。
1.3 假设空间
归纳和演绎是科学推理的两大基本手段。
学习得过程可以看作是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。
1.4 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。
“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”
谈论算法的相对优劣,必须要针对具体的学习问题。
1.5 发展历程
略
1.6 应用现状
略
第二章 模型评估与选择
2.1 经验误差与过拟合
m个样本中有a个样本分类错误,则错误率E=a/m;相应的, 1-a/m 称为"精度".把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”。将学习器在训练集上的误差称为训练误差 training error,或经验误差 empirical error,在新样本上的误差称为泛化误差 generalization error。
过拟合(overfitting)是指学习器很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降;与过拟合相对的是欠拟合 (underfitting),这是指对训练样本的一般性质尚未学好
2.2 评估方法
使用“测试集”来测试学习器对新样本的辨别能力,然后以测试集上的“测试误差“作为泛化误差的近似。注意测试集应与训练集互斥。
2.2.1 留出法
直接将数据集划分为两个互斥的集合。要尽量保持数据分布的一致性。
2.2.2 交叉验证法
先划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,每次用k-1个子集的并集作为训练集,余下的作为测试集;可以得到k组训练、测试集。
2.2.3 自助法
上面两个方法中,保留了一部分样本用于测试。
2.2.4 调参与最终模型
除了要对适用学习算法进行选择,还需对算法参数进行设定。
2.3 性能度量
衡量模型泛化能力的评价标准。回归任务最常用的性能度量是”均方误差“
2.3.1 错误率和精度
见上
2.3.2 查准率、查全率与F1
2.3.3 ROC与AUC
ROC全称是”受试者工作特征“,根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测。
AUC考虑的是样本预测的排序质量。
2.3.4 代价敏感错误率与代价曲线
2.4 比较检验
统计假设检验为我们进行学习器性能比较提供了重要依据。
2.4.1 假设检验
假设是对学习器泛化错误率分布的某种判断或猜想。
2.4.2 交叉验证t检验
2.4.3 McNemar检验
2.4.4 Friedman检验与Nememyi后续检验
2.5 偏差与方差
2.6 阅读材料