泛化 (Generalization):过拟合的风险

原创 2018年04月15日 23:31:31

假设这些图中的每个点代表一棵树在森林中的位置。图中的两种颜色分别代表以下含义:

  • 蓝点代表生病的树。

  • 橙点代表健康的树。

                    

                                           图 1. 生病(蓝色)和健康(橙色)的树。

如果我们很严格的区分,如图二所示:

                           

                                             图 2. 用于区分生病的树与健康的树的复杂模型。

图 3 显示我们向该模型中添加了新数据后所发生的情况。结果表明,该模型在处理新数据方面表现非常糟糕。请注意,该模型对大部分新数据的分类都不正确。

                                 

                                                          图 3. 该模型在预测新数据方面表现非常糟糕。

图 2 和图 3 所示的模型过拟合了训练数据的特性。过拟合模型在训练过程中产生的损失很低,但在预测新数据方面的表现却非常糟糕。过拟合是由于模型的复杂程度超出所需程度而造成的。机器学习的基本冲突是适当拟合我们的数据,但也要尽可能简单地拟合数据。

机器学习的目标是对从真实概率分布(已隐藏)中抽取的新数据做出良好预测。遗憾的是,模型无法查看整体情况;模型只能从训练数据集中取样。

泛化边界,即统计化描述模型根据以下因素泛化到新数据的能力:

  • 模型的复杂程度
  • 模型在处理训练数据方面的表现

虽然理论分析在理想化假设下可提供正式保证,但在实践中却很难应用。机器学习速成课程则侧重于实证评估,以评判模型泛化到新数据的能力。机器学习模型旨在根据以前未见过的新数据做出良好预测。但是,如果您要根据数据集构建模型,如何获得以前未见过的数据呢?一种方法是将数据集分成两个子集:

  • 训练集 - 用于训练模型的子集。
  • 测试集 - 用于测试模型的子集。

一般来说,在测试集上表现是否良好是衡量能否在新数据上表现良好的有用指标,前提是:

  • 测试集足够大。
  • 您不会反复使用相同的测试集来作假。

机器学习细则

以下三项基本假设阐明了泛化:

  • 我们从分布中随机抽取独立同分布 (i.i.d) 的样本。换言之,样本之间不会互相影响。(另一种解释:i.i.d. 是表示变量随机性的一种方式)。
  • 分布是平稳的;即分布在数据集内不会发生变化。
  • 我们从同一分布的数据划分中抽取样本。

在实践中,我们有时会违背这些假设。例如:

  • 想象有一个选择要展示的广告的模型。如果该模型在某种程度上根据用户以前看过的广告选择广告,则会违背 i.i.d. 假设。
  • 想象有一个包含一年零售信息的数据集。用户的购买行为会出现季节性变化,这会违反平稳性。

如果违背了上述三项基本假设中的任何一项,那么我们就必须密切注意指标。

总结
  • 如果某个模型尝试紧密拟合训练数据,但却不能很好地泛化到新数据,就会发生过拟合。
  • 如果不符合监督式机器学习的关键假设,那么我们将失去对新数据进行预测这项能力的重要理论保证。
Key Terms
generalization(泛化)overfitting(过拟合)
prediction(预测)stationarity(平稳性)
test set(测试集)training set(训练集)

版权声明: https://blog.csdn.net/bxg1065283526/article/details/79954608

机器学习-周志华-笔记-第2章

经验误差、泛化误差、测试误差 经验误差,也叫训练误差,在训练集上的误差,与之对应的是泛化误差(generalization error,在新样本上的误差)。评估一个好的模型显然是泛化误差最小。但是实际...
  • u012938704
  • u012938704
  • 2017-06-29 21:25:07
  • 716

机器学习(六) - - 模型评估和选择①经验误差与过拟合

模型评估和选择(一) 经验误差和过拟合
  • zmdsjtu
  • zmdsjtu
  • 2016-09-29 12:32:15
  • 2153

泛化(Generalization)

表示一个更泛化的元素和一个更具体的元素之间的关系,现实世界中一般与特殊关系就是最好的表现。图表 1泛化在上图中,空心的三角表示继承关系(类继承),在UML的术语中,这种关系被称为泛化(Generali...
  • lianghua19
  • lianghua19
  • 2009-10-06 00:02:00
  • 533

泛化和过拟合

泛化能力 泛化能力用来表征学习模型对于未知数据的预测能力。 很显然,我们没有办法对所有的数据进行预测然后判断来计算一个模型的模型的泛华能力,所以在实际应用当中,我们一般还是用的测试集中的数据来近似...
  • weixin_41609899
  • weixin_41609899
  • 2018-01-16 09:58:24
  • 90

克服过拟合和提高泛化能力的20条技巧和诀窍

 克服过拟合和提高泛化能力的20条技巧和诀窍 你是如何提升深度学习模型的效果? 这是我经常被问到的一个问题。 有时候也会换一种问法: 我该如何提高模型的准确率呢? ……或者反过...
  • starzhou
  • starzhou
  • 2016-10-08 10:25:00
  • 6692

浅谈深度学习尝常识:泛化、过拟合、Dropout、Attention

刚开始接触深度学习,难免有很多名词概念的陌生、不清晰;当然,如果要快速考核一个人的深度学习”深度“,尤其是在面试过程中,同行会问到,有没有出现过拟合呀?怎么解决呀?这些问题看起来很高深,或者需要很深厚...
  • Errors_In_Life
  • Errors_In_Life
  • 2017-04-19 23:46:09
  • 1696

用例图中包含(include)扩展(extend)和泛化(generalization)关系详解

用例图是解决用户需求的图,画好用例图一定要理清用例之间的关系。用例之间有三种关系:包含(include)扩展(extend)和泛化(generalization)。下面介绍三者的相同点和不同点以便区分...
  • linxi1209163com
  • linxi1209163com
  • 2014-03-17 09:15:21
  • 1598

统计学习方法——模型的选择与评估(过拟合、泛化能力)

参考书目及论文:《统计学习方法》——李航、A Tutorial on Support Vector Machine for Pattern Recognition 监督学习的目的是找到一个输入输...
  • lucylove3943
  • lucylove3943
  • 2015-07-25 21:42:45
  • 6394

UML用例图中包含(include)、扩展(extend)和泛化(generalization)三种关系详解

UML用例图中包含(include)、扩展(extend)和泛化(generalization)三种关系详解 共性:都是从现有的用例中抽取出公共的那部分信息,作为一个单独的用例,然后通后过不同的...
  • lhj0711010212
  • lhj0711010212
  • 2014-01-15 23:00:38
  • 978

神经网络中的过拟合、泛化能力、L2正则化

过拟合:训练好的神经网络对训练数据以及验证数据拟合的很好,accuracy很高,loss很低,但是在测试数据上效果很差,即出现了过拟合现象。 泛化能力:训练好的神经网络模型对不在训练集中的数据的预测...
  • coderecord
  • coderecord
  • 2017-10-10 10:52:05
  • 481
收藏助手
不良信息举报
您举报文章:泛化 (Generalization):过拟合的风险
举报原因:
原因补充:

(最多只允许输入30个字)