第一章 绪论
1.1基本术语
数据集:
这组记录的集合
示例/样本:
每条记录是关于一 个事件或对象(这里是一个西瓜)的描述
属性空间/样本空间/输入空间——属性张成的空间
训练数据:
训练过程中使用的数据
训练集:
训练样本组成的集合
假设:
学得模型对应了关于数据 的某种潜在的规律
真相:
这种潜在规律自身
标记空间/输出空间:
y是所有标记的集合
测试样本:
被预测的样本
聚类:
将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster);这些自动形成的簇可能对应一些潜在的概念 划分
泛化能力:
学得模型适用于新样本的能力
独立同分布:
假设样本空间中全体样本服从一个未知“分 布 " 我们获得的每个样本都是独立地从这个分布上采样获得的
1.2假设空间
布尔概念学习
概念学习中最基本的,即对“是”“不是”这样的可表示为0/1布尔值得目标概念的学习。
归纳:
从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律
演绎:
从基础原理推演出具体状况
版本空间:
可能有多个假设与训练集一致,即存在着一个与 训练集一致的“假设集合”
第二章 模型评估与选择
2.1 经验误差与过拟合
错误率:
分类错误的样本数占样本总数的比例
精度:
1-错误率
误差:
学习器的实际预测输出与样本的真实输出之间的差异
训练误差/经验误差:
在训练集上的误差
泛化误差:
在新样本上的误差
过拟合:
学习器把训练样本学得太好了,把一些训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降
欠拟合:
对训练样本的一般性质尚未学好
2.2评估方法
2.2.1留出法
将D划分成两个互斥的集合,在S上训练,用T估计泛化误差D=S⋃T,S⋂T=∅
Ps1:训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。
Ps2:即便在给定训练/测试集的样本比例后,仍存在多 种划分方式对初始数据集D进行分割。
留出法使用建议:
单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
留出法弊端:
我们希望评估的是用。 训练出的模型的性能,但留出法需划分训练/测试集,这就会导致一个窘境:若令训练集S 包含绝大多数样本,则训练出 的模型可能更接近于用D 训练出的模型,但由于T 比较小,评估结果可能不够 稳定准确;若令测试集T 多包含一些样本,则训练集S 与 。 差别更大了,被评 估的模型与用D训练出的模型相比可能有较大差别,从而降低了评估结果的保真性。
2.2.2交叉验证法
先将数据集D 划 分 为 k 个大小相似的 互斥子集,即
每个子集D i 都 尽可能保持数据分布的一致性,即 从 。 中通过分层采样得到.然后,每次用 k - 1 个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k 组训练/测试集,从而可进行k 次训练和测试,最终返回的是这k 个测试结果的均值。通常把交叉验证法称为“k 折交叉验证”(k-fold cross validation), k 最常用的取值是10 ,此时称为10 折交叉验证;其他常用的k值 有 5、20 等。
k 折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p 次 k 折交叉验证结果的均值,例如常见的有 “ 10次10折交叉验证”。
留一法(Leave-One-Out,简称LOO):
若D中含有m个样本,若令k=m,则得到了交叉验证的特例。LOO不受随机样本划分方式影响,因为m个样本只有唯一的方式划分为m个子集——每个子集包含一个样本。LOO使用的S与D相比只缺少了一个样本,这就使得在绝大多数情况下,LOO的评估比较准确;缺点是在D比较庞大的时候,计算开销很大。
2.2.3 自助法(bootstrapping)
给定包含m个样本的数据集D,对他进行采样产生数据集D ′ :每次随机从D中挑选一个样本,将其拷贝放入D ′ ,然后将该样本放回D,使得该样本在下次采样时仍可能被采样到。重复采样m次,我们就获得了包含m个样本的数据集D ′ 。显然,有一部分样本不会在D ′ 中出现,而另一部分会出现多次。
通过自助采样,D中约有36.8%的样本未出现在D′中,于是我们可以将D ′作为训练集S,D−D′作为测试集T.这样的测试结果称为外包估计(out-of-bag estimate)
优点:
-
在数据集小、难以有效划分训练、测试集时很有用;
-
自助法能从初始数据集中产生多个不同的训练集,这对集成学习有很大好处。
缺点:
-
改变了初始数据集的分布,这会引入估计误差。
2.在数据量足够的时候,留出法和交叉验证法更常用。
2.2.4调整参数与最终模型
-
训练集:用来训练模型或确定模型参数
-
验证集:用来做模型选择(model selection),例如网络结构或者控制模型复杂程度的参数
-
测试集:检验最终选择最优的模型的性能
2.3性能度量
衡量模型泛化能力的评价标准。
回归任务最常用的性能度量是“均方误差"(mean squared error)
2.3.2查准率、查全率与F1
查准率:
“检索出的信息中有多少比例是用户感兴趣的”
查全率:
“用 户感兴趣的信息中有多少被检索出来了”
一般来说,查准率高时,查全率往往 偏低;而查全率高时,查准率往往偏低
P-R曲线
查准率-查全率曲线简称 “P-R曲线“。
P -R 图直观地显示出学习器在样本总体上的查全率、查准率.在进行比较 时,若一个学习器的P -R 曲线被另一个学习器的曲线完全“包住”,则可断言 后者的性能优于前者
平衡点
“平衡点”(Break-Event Point,简 称 BEP)就是这样一个度量,它 是 “查 准率= 查全率,,时的取值
F1度量
F1度量的一般形式为
β>1时查全率有更大影响;β<1时查准率有更大影响。