基础
- 若预测是离散值 称为“分类”
- 若预测是连续值 称为“回归”
- 分类同时包含二分类任务(正类、反类)与多分类任务
- 聚类,即将训练集中的样例分成若干簇,这些自动形成的簇可能对应一些潜在的概念划分。
- 依据训练数据是否拥有标记信息,学习任务分为两大类:“监督学习”与“无监督学习”
分类和回归是前者代表,聚类是后者的代表 - 通常假设样本空间中全体样本服从某种“分布”,每个样本都独立同分布
模型评估与选择
2.1经验误差与过拟合
错误率:分类错误的样本数占样本总数的比例 (error rate)
精度:1 - 错误率
误差:实际预测输出与样本真实输出之间的差异
学习器在训练集上的误差称为“训练误差”“经验误差”
在新样本上的误差称为“泛化误差”
过拟合可能将训练样本自身的特点当作了潜在样本的通性(类似抽象不具体)
欠拟合是指对训练样本的一般性质尚未学好
2.2.评估方法
可采用测试集上的测试误差近似看作泛化误差(暂不考虑其他因素)
测试集尽可能与训练集互斥
留出法
直接将数据集划分为两个互斥的集合,一个训练集,一个测试集
尽可能保持数据分布的一致性
单次使用留出法得到的估计结果,往往不够稳定可靠,在使用留出法时,一般要采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果
缺点:若训练集占比大,虽训练出的模型更接近原集的模型,但由于测试集较小,评估结果可能不够稳定准确;若训练集占比缩小,则训练集与原集的差别更大,被评估的模型可能与原集训练出的模型相比有较大的差距,从而降低了苹果结果的保真性。
目前无完美解决办法,常2/3~4/5用于训练
交叉验证法
数据集D划分为k个大小相似的互斥子集,每个子集Di都尽可能保持数据分布的一致性,即通过分层采用从D中得到。
每次用k-1个子集的并集做训练集,余下的做测试集,重复k次。可得k组训练/测试集,最终返回k组测试结果的均值
其稳定性与保真星很大程度上取决于k的取值,常称为 k折交叉验证
当k=|D|时,得到特例——留一法,期望模型与训练模型更相似,但不适于数据集特大的情况
自助法
给定包含m个样本的数据集D,对其进行采样,随机抽取一个样本,将其拷贝到D’ ,并将该样本重放回原数据集,重复m次,得到一个包含m个样本的数据集D’。
显然,有一部分样本多次被采样,有一部分没被采样。
某样本不被采样的概率约为 exp(1 - 1/m , m ) ,取极限= 1/e ,约等于0.368,即通过自助法,将数据集分为64%的训练集与36%的测试集,同时训练集与原集均拥有m个数据,并且仍有数据总量约1/3、没有训练的样本用于测试。
适用于数据集少、难以划分训练/测试集时。
由于产生的数据集D’改变了初始数据集的分布,可能会引入估计误差。
2.3性能度量
模型的“好坏”是相对的,什么样的模型是好的,不仅取决于算法和数据,还决定与任务需求
在预测任务中,给定样例集D={(x1,y1),(x2,y2),(x3,y3),···,(xn,yn)},其中yi是xi的真是标记。要评估学习器 f 的性能,就要把学习器预测结果 f(x) 与真是结果 y 进行比较。
回归任务最常用的性能度量是“均方误差”(mean squared error),即常说的方差
对于数据分布D和概率密度p(·),均方误差可描述为