理解经验与泛化误差-CSDN博客

本文链接：https://blog.csdn.net/LoseInVain/article/details/78746520

经验误差，泛化误差

前言

我们在上篇博文《机器学习模型的容量，过拟合与欠拟合》中曾经提到过模型的泛化问题，指的就是描述一个模型在未见过的数据中的表现能力。这里再提出了，用于比较经验误差。
联系方式：
e-mail: FesianXu@163.com
QQ: 973926198
github: https://github.com/FesianXu

假设我们现在有数据集 $D=\{(x_1,y_1), (x_2,y_2),\cdots,(x_i,y_i)\}, i=N$ ,其中 $N$ 是数据集的大小， $x_i$ 为数据的属性¹， $y_i$ 为标签。假设有 $y_i \in \mathcal{Y}$ ， $x_i \in \mathcal{X}, \rm i =1,2,\cdots,N$ ，假设 $\mathcal{X}$ 中的所有样本都满足一个隐含的，未知的分布 $\mathcal{D}$ ，也就是说 $D$ 中的所有样本都是从 $\mathcal{D}$ 中独立同分布(i.i.d) 地采样的。
然后假设 $h$ 是算法 $\mathcal{L}$ 学习到的从 $\mathcal{X}$ 到 $\mathcal{Y}$ 的映射， $y = h (x)$ ，并且有 $\in\mathcal{H}$ ，其中 $\mathcal{H}$ 为算法 $\mathcal{L}$ 的假设空间。我们可以定义映射 $h$ 的 泛化误差(generalization error):

$\mathcal{D}) = \rm P_{x \sim \mathcal{D}} \rm(h(x) \neq y) \tag{1.1}$
因为我们无法观察到整个分布 $\mathcal{D}$ ，只能观察到独立同分布采样后的 $D$ ，因此我们需要定义 经验误差(empirical error):
$\hat E(h;\mathcal{D}) = \rm \frac{1}{N} \sum_{i=1}^N 1(h(x_i) \neq y_i),x_i \in D \tag{1.2}$
其中的 $1(\cdot)$ 表示当条件符合时输出1，否则输出0。由于 $D$ 是 $\mathcal{D}$ 的独立同分布采样，因此 $h$ 的经验误差的期望等于泛化误差。