机器学习与数据挖掘第十一讲：Overfitting

最新推荐文章于 2024-04-16 16:33:19 发布

leeningzzu

最新推荐文章于 2024-04-16 16:33:19 发布

阅读量303

点赞数

分类专栏：机器学习与数据挖掘：加州理工学院公开课

本文链接：https://blog.csdn.net/leeningzzu/article/details/91392015

版权

机器学习与数据挖掘：加州理工学院公开课专栏收录该内容

14 篇文章 0 订阅

订阅专栏

概念

泛化（Generalization）：模型的泛化能力是指它在训练数据集上的误差是否能够接近所有可能测试数据误差的均值( $E_{out}-E_{in}\rightarrow0$ )。泛化误差大致可以理解成测试数据集误差和训练数据集误差之差( $E_{out}-E_{in}$ )。
① 当 $E_{in}$ 很小， $E_{out}$ 很大时，发生过拟合(overfitting)
② 当 $E_{in}$ 很大， $E_{out}$ 很大时，发生欠拟合(underfitting)

下图中，竖直的虚线左侧是"underfitting", 右侧是"overfitting”。

我们通过对训练集的拟合效果来评判训练模型，但模型的性能好坏却是由模型在未知数据上的表现确定的。
样本数据中不可避免的存在噪音，当拟合程度超过一定程度时，其实是在拟合噪音，其泛化能力也相应变差。

发生overfitting的主要原因有：

使用过于复杂的模型( $d_{vc}$ 很大)
数据噪音
有限的训练数据

过拟合中的噪音

① Stochastic noise: 由数据采集造成的噪音，呈随机化, 称随机噪音 $\epsilon$ 为
$y - f (X)$
② Deterministic noise: 由于假设函数 $g$ 的复杂程度造成的，称为确定性噪音,即
$E[\hat{g}(X)]-f(X)$
异同点

两种噪音均无法消除，随机噪音是永恒存在，呈现随机分布规律；确定性噪音则由假设空间和样本数据的有限性导致的无规律存在
确定性噪音由假设空间 $H$ 决定，当x给定时，其偏差是确定的

当噪音不存在时，
$\begin{aligned} \operatorname{E}_{D} &={E}_{D}\left[(g^{D}(x)-\hat{f}(x))^{2}\right] \\ &={E}_{D}\left[(g^{D}(x)-\hat{g}(x))^{2}\right] +{E}_{D}\left[(\hat{g}(x)-{f}(x)])^{2}\right]\\ &=\operatorname { Variance }+ \text{Bias} \end{aligned}$
当噪音存在时
$\begin{aligned} \operatorname{E}_{D,\epsilon} &={E}_{D,\epsilon}\left[(g^{D}(x)-\hat{f}(x))^{2}\right]\\ &={E}_{D,\epsilon} \left[(g^{D}(x)-\hat{f}(x)-\epsilon(x))^{2}\right] \\ &=\underbrace{{E}_{D,x} \left[(g^{D}(x)-\hat{g}(x))^{2}\right]}_{\text { Variance } } +\underbrace{\underbrace{{E}_{x}\left[(\hat{g}(x)-{f}(x)])^{2}\right]}_{\text { Bias } }}_{\text { deterministic noise } }+\underbrace{\underbrace{{E}_{\epsilon,x}[(\epsilon(x))^{2}]}_{ \sigma^2 }}_{\text { stochastic noise } } \end{aligned}$