机器学习泛化误差

最新推荐文章于 2023-06-12 20:52:48 发布

enough_time

最新推荐文章于 2023-06-12 20:52:48 发布

阅读量738

点赞数

分类专栏：机器学习文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/sfakh/article/details/126604089

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

泛化误差

定义

机器学习算法的最终目标是最小化期望损失风险，由于数据的真实分布通常是不知道的，因此，将学习目标转换为最小化经验风险：
$min_{g\in\mathcal{G}}\hat{l}_n(g)=\frac{1}{n}\sum_{i=1}^{n}l(g;x_i,y_i)$

优化算法对最小化经验风险函数求解，并在算法结束的第 $T$ 次迭代中输出模型 $\hat{g}_T$ 。我们希望学习到的模型 $\hat{g}_T$ 的期望风险 $L(\hat{g}_T)$ 尽可能小，并将其定义为机器学习算法的泛化误差。

泛化误差分解

机器学习中，我们希望学习算法的泛化误差 $L(\hat{g}_T)$ 尽可能小，尽可能接近最优模型的期望风险。也就是说，优化算法输出的模型 $\hat{g}_T$ 与最优模型 $g^*$ 所对应的期望风险之差 $L(\hat{g}_T)-L(g^*)$ 尽可能小，这个差距通常也被称为泛化误差。
我们对泛化误差进行如下分解：
$L(\hat{g}_T)-L(g^*)=L(\hat{g}_T)-L(\hat{g}_n)+L(\hat{g}_n)-L(g_\mathcal{G}^*)+L(g_\mathcal{G}^*)-L(g^*)$

其中，每个部分的含义如下：

符号	含义
$\hat{g}_T$	机器学习学得模型 $\hat{g}_T$
$\hat{g}_n$	函数族 $\mathcal{G}$ 中使得经验风险最小的模型
$g_\mathcal{G}^*$	函数族 $\mathcal{G}$ 中使得期望风险最小的模型

上述可以进一步分解为以下三项：

$L(\hat{g}_T)-L(\hat{g}_n)$ 为优化误差，表示的是优化算法迭代 $T$ 轮后输出的模型与经验风险最小的模型所对应的期望风险的差别。这项误差是由于优化算法的局限性带来的，与选用的优化算法、数据量大小、迭代轮数以及函数空间有关
$L(\hat{g}_n)-L(g_\mathcal{G}^*)$ 为估计误差，表示的是经验风险最小的模型和期望风险最小的模型所对应的期望风险的差别。这项误差主要是由训练数据集的局限性带来的，与数据量的大小和函数空间的复杂程度都有关系
$L(g_\mathcal{G}^*)-L(g^*)$ 为近似误差，表示的是函数集合 $\mathcal{G}$ 中的最优期望风险与全局最优期望风险的差别。这项误差与函数空间的表达力有关