[学渣啃西瓜书]第二章:模型评估与选择-基本概念辨析1

 重温一下数据集的概念

错误率:样本空间内, 有m个样本,假设其中a个样本分类错误,错误率E = a/m

精度: 1 - a/m

误差(error): 预测输出和真实结果之间的差异。根据预测的输入空间来源分为以下两种

训练误差或经验误差:训练集上的输出和真实结果的差异。

泛化误差:新样本(预测集)的输出和真实结果的差异。

目标:泛化误差最小。毕竟我们是为了预测。

实践中的悖论:经验误差小,往往泛化能力差。主要是因为训练集上的数据特征当做了所有潜在样本具有的一般特性,即“特例归纳为一般性规律”,导致泛化能力下降,即过拟合。相对应的是欠拟合。

如何评估学习机

评估什么?评估泛化误差。通过对测试集来测试新样本的判别能力,“测试误差“作为“泛化误差”的近似。

测试样本,需要同样从样本空间内取得,与训练样本i.i.d,并且互斥。Training U Tesing = 样本集 且 Training \tiny \bigcap testing = \Phi

如何划分训练集合测试集?

数据集D={ (x1,y1),(x2,y2),(x3,y3),...,(xm,ym)} 从D中划取训练集S和测试集T

留出法:

D= S U T, S \tiny \bigcap T = \Phi, S上训练,T检测误差

如: S = 700个样本,T = 300个样本,T有90个分类错误,E=90/300=30%,精度为1-30%=70%

S和T应该保持数据分布一致性。在分类任务中保持样本的类别别理相似,保留类别比例的方式称为分层采样(stratified sampling)。如上例,D含500正例,500反例,则S含正反350/350,T含正反150/150。如果类别比例相差大,则误差估计可能由S、T的测试数据分布差异产生偏差。

因为选择S时,对D中选择数据的顺序不同,导致单次留出法不稳定,需要若干次随机划分、重复试验,然后取平均值。对于S和T的数据数量比,一般是2/3  ~ 4/5。

交叉验证法:

将D拆成k个大小相似的互斥子集。每个Di尽可能保持数据分布一致性,即对D使用分层采样。k-1个子集的并集为S,剩下的一个子集是T。进行k次训练和测试,得到k个测试平均值。稳定性和保真性取决于k。

特殊情况:留一法(Leave-One-Out,LOO)

当k = m, 好处:与D训练出来的非常接近,不好:非随机样本,且D比较大的时候,算力需求大。并因为NFL定理,留一法未必永远更准确。

自助法:

给定一个D,含m个样本。从D中随意选一个样本放入D',然后把此样本再扔回D。m次后,D'中也有m个样本,D'中的样本在m此采样中始终不被采到的概率是p=(1 - 1/m)^m,取极限(公式2.1,27页)为0.368,所以D'为S,D\D'为T。这样T约为1/3,这样的结果称为包外估计(out--of-bag estimate)

自助法在D比较小的时候有用,也对集成学习等有好处。但是它改变了初始数据集分布,会引入估计偏差。所以D够大的时候,应该用留出法,交叉验证法。

三种方法小结:

调参和最终模型:

因为大部分参数都是实数范围,所以建立范围和步长很必要。

最终模型:

在S中训练,在T中检验,模型选定,参数确认,然后需要用D重新训练。这才是最终的模型。

重新定义一些概念

测试数据:模型在时机使用中遇到的数据。

验证集:模型评估中使用的评估测试的数据集。这是从S中划分出来的,用来选择模型和调参。

本章重点在模型评估,我先把一些基本概念辨析清楚。下一篇再搞评估学习笔记。

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值