西瓜书笔记 4-15

基础

  1. 若预测是离散值 称为“分类”
  2. 若预测是连续值 称为“回归”
  3. 分类同时包含二分类任务(正类、反类)与多分类任务
  4. 聚类,即将训练集中的样例分成若干簇,这些自动形成的簇可能对应一些潜在的概念划分。
  5. 依据训练数据是否拥有标记信息,学习任务分为两大类:“监督学习”与“无监督学习”
    分类和回归是前者代表,聚类是后者的代表
  6. 通常假设样本空间中全体样本服从某种“分布”,每个样本都独立同分布

模型评估与选择

2.1经验误差与过拟合

错误率:分类错误的样本数占样本总数的比例 (error rate)

精度:1 - 错误率

误差:实际预测输出与样本真实输出之间的差异

学习器在训练集上的误差称为“训练误差”“经验误差”

在新样本上的误差称为“泛化误差”

过拟合可能将训练样本自身的特点当作了潜在样本的通性(类似抽象不具体)
欠拟合是指对训练样本的一般性质尚未学好
在这里插入图片描述

2.2.评估方法

可采用测试集上的测试误差近似看作泛化误差(暂不考虑其他因素)
测试集尽可能与训练集互斥

留出法

直接将数据集划分为两个互斥的集合,一个训练集,一个测试集

尽可能保持数据分布的一致性

单次使用留出法得到的估计结果,往往不够稳定可靠,在使用留出法时,一般要采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果

缺点:若训练集占比大,虽训练出的模型更接近原集的模型,但由于测试集较小,评估结果可能不够稳定准确;若训练集占比缩小,则训练集与原集的差别更大,被评估的模型可能与原集训练出的模型相比有较大的差距,从而降低了苹果结果的保真性。

目前无完美解决办法,常2/3~4/5用于训练

交叉验证法

数据集D划分为k个大小相似的互斥子集,每个子集Di都尽可能保持数据分布的一致性,即通过分层采用从D中得到。

每次用k-1个子集的并集做训练集,余下的做测试集,重复k次。可得k组训练/测试集,最终返回k组测试结果的均值

其稳定性与保真星很大程度上取决于k的取值,常称为 k折交叉验证

当k=|D|时,得到特例——留一法,期望模型与训练模型更相似,但不适于数据集特大的情况

自助法

给定包含m个样本的数据集D,对其进行采样,随机抽取一个样本,将其拷贝到D’ ,并将该样本重放回原数据集,重复m次,得到一个包含m个样本的数据集D’。

显然,有一部分样本多次被采样,有一部分没被采样。

某样本不被采样的概率约为 exp(1 - 1/m , m ) ,取极限= 1/e ,约等于0.368,即通过自助法,将数据集分为64%的训练集与36%的测试集,同时训练集与原集均拥有m个数据,并且仍有数据总量约1/3、没有训练的样本用于测试。

适用于数据集少、难以划分训练/测试集时。
由于产生的数据集D’改变了初始数据集的分布,可能会引入估计误差。

2.3性能度量

模型的“好坏”是相对的,什么样的模型是好的,不仅取决于算法和数据,还决定与任务需求

在预测任务中,给定样例集D={(x1,y1),(x2,y2),(x3,y3),···,(xn,yn)},其中yi是xi的真是标记。要评估学习器 f 的性能,就要把学习器预测结果 f(x) 与真是结果 y 进行比较。

回归任务最常用的性能度量是“均方误差”(mean squared error),即常说的方差
在这里插入图片描述
对于数据分布D和概率密度p(·),均方误差可描述为
在这里插入图片描述

2.3.2 查准率、查全率与F1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值