过拟合与欠拟合数学原理

最新推荐文章于 2024-06-25 19:47:21 发布

光与热

最新推荐文章于 2024-06-25 19:47:21 发布

阅读量999

点赞数

分类专栏：机器学习文章标签：预测数学

机器学习专栏收录该内容

17 篇文章 1 订阅

订阅专栏

一、偏倚（bias）和方差(variance)

在讨论线性回归时，我们用一次线性函数 $y=\theta_0+\theta_1x$ 对训练样本进行拟合（如图1所示）；然而，我们可以通过二次多项式函数对训练样本进行拟合（如图2所示），函数对样本的拟合程序看上去更“好”；当我们利用五次多项式函数对样本进行拟合（如图3所示），函数通过了所有样本，成为了一次“完美”的拟合。

图3建立的模型，在训练集中通过x可以很好的预测y，然而，我们却不能预期该模型能够很好的预测训练集外的数据。换句话说，这个模型没有很好的泛化能力。因此，模型的泛化误差(generalization error)不仅包括其在样本上的期望误差，还包括在训练集上的误差。

图1和图3中的模型都有较大的泛化误差，然而他们的误差原因却不相同。图1建立了一个线性模型，但是该模型并没有精确的捕捉到训练集数据的结构，我们称图1有较大的偏倚（bias），也称欠拟合；图3通过5次多项式函数很好的对样本进行了拟合，然而，如果将建立的模型进行泛化，并不能很好的对训练集之外数据进行预测，我们称图3有较大的，也称过拟合。
通常，在偏倚和方差之间，这样一种规律：如果模型过于简单，其具有大的偏倚，而如果模型过于复杂，它就有大的方差。调整模型的复杂度，建立适当的误差模型，就变得极其重要了。

二、预备知识

首先我们先介绍两个非常有用的引理：

引理1：一致限（the union bound）令 $A_1,A_2,...,A_k$ 为k个不同的事件（不一定相互独立），那么有：

$P(A_1\cup ...\cup A_k)\le P(A_1)+...+P(A_k)$

一致限说明：k个事件中任一个事件发生的概率小于等于这k个事件发生的概率和（等号成立的条件为这k个事件相两两互斥）。

引理2：Hoeffding 不等式（Hoeffding inequality）令 $Z_1,...,Z_m$ 为m个独立同分布的随机变量，由参数为的伯努利分布（即 $P(Z_i=1)=\phi,P(Z_i=0)=1-\phi$ ）生成。令 $\hat{\phi}=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}Z_{i}$ ，为这些随机变量的均值，对于任意 $"\gamma$ 0” alt=”“>有：

$"P(|\phi-\hat{\phi}|$ \gamma)\le2exp(-2\gamma^2m)” alt=”“>

$"P(|\phi-\hat{\phi}|\le\gamma)$ 1-2exp(-2\gamma^2m)” alt=”“>

在机器学习中，引理2称为Chernoff边界（Chernoff bound）,它说明：假设我们用随机变量的均值 $\hat{\phi}$ 去估计参数 $\phi$ ，估计的参数和实际参数的差超过一个特定数值的概率有一确定的上界，并且随着样本量m的增大， $\hat{\phi}$ 与 $\phi$ 很接近的概率也越来越大。

通过以上两个引理，我们能够引出机器学习中很重要结论。
为简单起见，我们只讨论二分类问题，即类标签为 $y\in\{0,1\}$ 。

假设给定的训练集为 $S=\{(x^{(i)},y^{(i)});i=1,...,m\}$ ，且各训练样本 $(x^{(i)},y^{(i)})$ 独立同分布，皆为某个特定分布D生成。对于一个假设函数（hypothesis），定义训练误差（training error）（也称为经验风险（empirical risk）或经验误差(empiriacal error)）为：

$\hat{\varepsilon}(h)=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}\#\{h(x^{(i)})\neq y^{(i)}\}$

训练误差为模型在训练样本中的错分类的比例，如果我们要强调 $\hat {\varepsilon}(h)$ 是依赖训练集的，也可以将其写作 $\hat {\varepsilon}_S (h)$ 。

我们再定义泛化误差（generalization error）：

$\varepsilon(h)=P_{(x,y)\sim D}(h(x)\neq y)$

这里得到的是一个概率，表示通过特定的分布D生成的样本（x，y）中的y与通过预测函数h(x)生成的结果不同的概率。

注意，我们假设训练集的数据是通过某种分布D生成的，我们以此为依据来衡量假设函数。这里的假设有时称为PAC(probablyapproximately correct)假设。

在线性分类中，假设函数 $h_{\theta}(x)=1\{\theta^{T}x\ge0\}$ 中参数 $\theta$ 如何得来？其中一个方法就是调整参数 $\theta$ ，使得训练误差最小，即：

$\hat{\theta}=arg\;\underset{\theta}{min}\;\hat{\varepsilon}(h_{\theta})$

我们称这样的方法为经验风险最小化（empirical risk mininmization，ERM），其中 $\hat{h}=h_{\hat{\theta}}$ ，基于ERM原则的算法可视作最基本的学习算法。线性回归和logistic回归都可以看作是遵守ERM的算法。

我们定义假设类集合 $\mathcal H$ （hypothesis class）为所有假设函数的集合。例如线性分类问题中， $\mathcal H =\{h_{\theta}:h_{\theta}=1,\theta^{T}x\ge0,\theta\in \mathbb R^{n+1}\}$ ，其为所有的 $\mathcal X$ （输入的定义域），对应的线性决策边界。

因此，ERM也可以认为是一组分类器的集合中，使得训练误差最小的那个分类器，即：

$\hat{h}=arg\;\underset{h\in\mathcal H}{min}\;\hat{\varepsilon}(h)$

3.有穷集 $\mathcal H$

我们定义假设类集合 $\mathcal H=\{h_1,...,h_k\}$ 由k个假设类(hypotheses)构成。其中， $\mathcal H$ 为k个由 $\mathcal X$ 至{0,1}的映射函数构成，ERM从集合中k个元素选择 $\hat{h}$ 使得训练误差最小。

为了确保 $\hat{h}$ 和泛化误差的差值是有上界的，即如果训练误差很小，那么泛化误差也不会太大，我们需要完成两个步骤：首先，证明对于任意h， $\hat{\varepsilon} (h)$ 是对 $\varepsilon(h)$ 的可靠估计；其次，证明 $\varepsilon(\hat{h})$ 存在上界。

我们令 $h_{i}\in \mathcal H$ ，随机变量Z服从伯努利分布，样本由分布 $\mathcal D$ 生成：即： $(x,y)\sim \mathcal D$ 。并且定义： $Z=1\;if\{h_i(x)\neq y\}$ ，即Z为指示变量，用来标记被假设函数 $h_i(x)$ 错误分类的样本。

泛化误差 $\varepsilon(h)$ 定义为随机变量Z的期望，训练误差 $\hat{\varepsilon} (h_i)$ 为训练样本被假设函数误分类的比例，即：

$\hat{\varepsilon} (h_i)=\frac{1}{m}\underset{j=1}{\overset{m}{\sum}}Z_j=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}\#\{h_{j}(x^{(i)})\neq y^{(i)}\}$

利用Hoeffding不等式，可以得到：

光与热

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
过拟合与欠拟合数学原理

一、偏倚（bias）和方差(variance)在讨论线性回归时，我们用一次线性函数对训练样本进行拟合（如图1所示）；然而，我们可以通过二次多项式函数对训练样本进行拟合（如图2所示），函数对样本的拟合程序看上去更“好”；当我们利用五次多项式函数对样本进行拟合（如图3所示），函数通过了所有样本，成为了一次“完美”的拟合。图3建立的模型，在训练集中通过x可以很好的预测y，然而，我们却不能预期该模型能够很
复制链接

扫一扫

专栏目录