【学习笔记】泛化

我们设计模型很大程度上是为了预测未来的数据,而模型对当前数据的解释能力过高,往往会影响对未来数据的预测。这种预测能力我们称之为泛化能力。

我们可以看到原图2中对当前数据的解释能力非常的强(拟合程度非常高),但是加入新数据后该模型的解释能力相当的低。

过拟合往往是因为模型的复杂程度超过了我们所需要的程度。

奥卡姆认为科学家应该优先采用更简单(而非更复杂)的公式或理论。奥卡姆剃刀定律在机器学习方面的运用如下:

机器学习的模型越简单,泛化能力可能就越强。

现今,我们已经将奥卡姆剃刀统计学习理论和计算学习领域。这些领域已经形成泛化边界。

 

这里我们需要将数据集分为两类(以后会提到,实际分为三类):

  • 训练集 - 用于训练模型的子集。
  • 测试集 - 用于测试模型的子集。

一般来说在模型在测试集的表现是泛化的有用指标,前提是:

  • 测试集 足够大。
  • 不会使用相同的测试集来造假

 

三项基本假设:

1.我们从分布中随机抽取独立同分布(i.i.d)的样本。换言之,样本之间不会互相影响。

2.分布是平稳的,即分布不会在数据集内发生变化。

3.我们从同一部分的数据划分中抽取样本。

 

实践中,我们可能会违背以上假设:

1.想想有一个要选择展示广告的模型,该模型在某种程度上根据用户以前看过的广告选择广告,这里既违背了i.i.d假设(样本之间互相影响)。

2.一个包含有一年零售信息的数据集,该数据集可能会呈现季节性变化,这违反了平稳性。

 

如果违背了上述三项基本假设中的任何一项,那么我们就必须密切注意指标。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值