【学习笔记】泛化

最新推荐文章于 2024-07-02 11:17:31 发布

Canon__

最新推荐文章于 2024-07-02 11:17:31 发布

阅读量1.6k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Canon__/article/details/82751440

版权

我们设计模型很大程度上是为了预测未来的数据，而模型对当前数据的解释能力过高，往往会影响对未来数据的预测。这种预测能力我们称之为泛化能力。

我们可以看到原图2中对当前数据的解释能力非常的强(拟合程度非常高)，但是加入新数据后该模型的解释能力相当的低。

过拟合往往是因为模型的复杂程度超过了我们所需要的程度。

奥卡姆认为科学家应该优先采用更简单（而非更复杂）的公式或理论。奥卡姆剃刀定律在机器学习方面的运用如下：

机器学习的模型越简单，泛化能力可能就越强。

现今，我们已经将奥卡姆剃刀统计学习理论和计算学习领域。这些领域已经形成泛化边界。

这里我们需要将数据集分为两类(以后会提到，实际分为三类):

训练集 - 用于训练模型的子集。
测试集 - 用于测试模型的子集。

一般来说在模型在测试集的表现是泛化的有用指标，前提是：

测试集 足够大。
不会使用相同的测试集来造假。

三项基本假设：

1.我们从分布中随机抽取独立同分布(i.i.d)的样本。换言之，样本之间不会互相影响。

2.分布是平稳的，即分布不会在数据集内发生变化。

3.我们从同一部分的数据划分中抽取样本。

实践中，我们可能会违背以上假设:

1.想想有一个要选择展示广告的模型，该模型在某种程度上根据用户以前看过的广告选择广告，这里既违背了i.i.d假设(样本之间互相影响)。

2.一个包含有一年零售信息的数据集，该数据集可能会呈现季节性变化，这违反了平稳性。

如果违背了上述三项基本假设中的任何一项，那么我们就必须密切注意指标。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。