系统学习机器学习之误差理论

理解机器学习中的泛化误差与偏倚、方差的关系

最新推荐文章于 2022-11-15 19:22:00 发布

原创最新推荐文章于 2022-11-15 19:22:00 发布 · 1w 阅读

12 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

83 篇文章

订阅专栏

本文深入探讨了在机器学习领域中，如何通过理解偏倚与方差的概念来评估模型的泛化能力。通过直观的图表解释了不同模型复杂度与泛化误差之间的关系，并介绍了泛化误差、训练误差和样本量之间的数学关系。文章进一步通过引入VC维的概念，阐述了如何在有限和无限假设类集合中寻找最佳模型复杂度，以最小化泛化误差。

部署运行你感兴趣的模型镜像

一、偏倚（bias）和方差(variance)

在讨论线性回归时，我们用一次线性函数 $y=\theta_0+\theta_1x$ 对训练样本进行拟合（如图1所示）；然而，我们可以通过二次多项式函数对训练样本进行拟合（如图2所示），函数对样本的拟合程序看上去更“好”；当我们利用五次多项式函数对样本进行拟合（如图3所示），函数通过了所有样本，成为了一次“完美”的拟合。

图3建立的模型，在训练集中通过x可以很好的预测y，然而，我们却不能预期该模型能够很好的预测训练集外的数据。换句话说，这个模型没有很好的泛化能力。因此，模型的泛化误差(generalization error)不仅包括其在样本上的期望误差，还包括在训练集上的误差。

图1和图3中的模型都有较大的泛化误差，然而他们的误差原因却不相同。图1建立了一个线性模型，但是该模型并没有精确的捕捉到训练集数据的结构，我们称图1有较大的偏倚（bias），也称欠拟合；图3通过5次多项式函数很好的对样本进行了拟合，然而，如果将建立的模型进行泛化，并不能很好的对训练集之外数据进行预测，我们称图3有较大的，也称过拟合。
通常，在偏倚和方差之间，这样一种规律：如果模型过于简单，其具有大的偏倚，而如果模型过于复杂，它就有大的方差。调整模型的复杂度，建立适当的误差模型，就变得极其重要了。

二、预备知识

首先我们先介绍两个非常有用的引理：

引理1：一致限（the union bound）令 $A_1,A_2,...,A_k$ 为k个不同的事件（不一定相互独立），那么有：

$P(A_1\cup ...\cup A_k)\le P(A_1)+...+P(A_k)$

一致限说明：k个事件中任一个事件发生的概率小于等于这k个事件发生的概率和（等号成立的条件为这k个事件相两两互斥）。

引理2：Hoeffding 不等式（Hoeffding inequality）令 $Z_1,...,Z_m$ 为m个独立同分布的随机变量，由参数为的伯努利分布（即 $P(Z_i=1)=\phi,P(Z_i=0)=1-\phi$ ）生成。令 $\hat{\phi}=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}Z_{i}$ ，为这些随机变量的均值，对于任意 $\gamma>0$ 有：

$P(|\phi-\hat{\phi}|>\gamma)\le2exp(-2\gamma^2m)$

$P(|\phi-\hat{\phi}|\le\gamma)>1-2exp(-2\gamma^2m)$

在机器学习中，引理2称为Chernoff边界（Chernoff bound）,它说明：假设我们用随机变量的均值 $\hat{\phi}$ 去估计参数 $\phi$ ，估计的参数和实际参数的差超过一个特定数值的概率有一确定的上界，并且随着样本量m的增大， $\hat{\phi}$ 与 $\phi$ 很接近的概率也越来越大。

通过以上两个引理，我们能够引出机器学习中很重要结论。
为简单起见，我们只讨论二分类问题，即类标签为 $y\in\{0,1\}$ 。

假设给定的训练集为 $S=\{(x^{(i)},y^{(i)});i=1,...,m\}$ ，且各训练样本 $(x^{(i)},y^{(i)})$ 独立同分布，皆为某个特定分布D生成。对于一个假设函数（hypothesis），定义训练误差（training error）（也称为经验风险（empirical risk）或经验误差(empiriacal error)）为：

$\hat{\varepsilon}(h)=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}\#\{h(x^{(i)})\neq y^{(i)}\}$

训练误差为模型在训练样本中的错分类的比例，如果我们要强调 $\hat {\varepsilon}(h)$ 是依赖训练集的，也可以将其写作 $\hat {\varepsilon}_S (h)$ 。

我们再定义泛化误差（generalization error）：

$\varepsilon(h)=P_{(x,y)\sim D}(h(x)\neq y)$

这里得到的是一个概率，表示通过特定的分布D生成的样本（x，y）中的y与通过预测函数h(x)生成的结果不同的概率。

注意，我们假设训练集的数据是通过某种分布D生成的，我们以此为依据来衡量假设函数。这里的假设有时称为PAC(probablyapproximately correct)假设。

在线性分类中，假设函数 $h_{\theta}(x)=1\{\theta^{T}x\ge0\}$ 中参数 $\theta$ 如何得来？其中一个方法就是调整参数 $\theta$ ，使得训练误差最小，即：

$\hat{\theta}=arg\;\underset{\theta}{min}\;\hat{\varepsilon}(h_{\theta})$

我们称这样的方法为经验风险最小化（empirical risk mininmization，ERM），其中 $\hat{h}=h_{\hat{\theta}}$ ，基于ERM原则的算法可视作最基本的学习算法。线性回归和logistic回归都可以看作是遵守ERM的算法。

我们定义假设类集合 $\mathcal H$ （hypothesis class）为所有假设函数的集合。例如线性分类问题中， $\mathcal H =\{h_{\theta}:h_{\theta}=1,\theta^{T}x\ge0,\theta\in \mathbb R^{n+1}\}$ ，其为所有的 $\mathcal X$ （输入的定义域），对应的线性决策边界。

因此，ERM也可以认为是一组分类器的集合中，使得训练误差最小的那个分类器，即：

$\hat{h}=arg\;\underset{h\in\mathcal H}{min}\;\hat{\varepsilon}(h)$

3.有穷集 $\mathcal H$

我们定义假设类集合 $\mathcal H=\{h_1,...,h_k\}$ 由k个假设类(hypotheses)构成。其中， $\mathcal H$ 为k个由 $\mathcal X$ 至{0,1}的映射函数构成，ERM从集合中k个元素选择 $\hat{h}$ 使得训练误差最小。

为了确保 $\hat{h}$ 和泛化误差的差值是有上界的，即如果训练误差很小，那么泛化误差也不会太大，我们需要完成两个步骤：首先，证明对于任意h， $\hat{\varepsilon} (h)$ 是对 $\varepsilon(h)$ 的可靠估计；其次，证明 $\varepsilon(\hat{h})$ 存在上界。

我们令 $h_{i}\in \mathcal H$ ，随机变量Z服从伯努利分布，样本由分布 $\mathcal D$ 生成：即： $(x,y)\sim \mathcal D$ 。并且定义： $Z=1\;if\{h_i(x)\neq y\}$ ，即Z为指示变量，用来标记被假设函数 $h_i(x)$ 错误分类的样本。

泛化误差 $\varepsilon(h)$ 定义为随机变量Z的期望，训练误差 $\hat{\varepsilon} (h_i)$ 为训练样本被假设函数误分类的比例，即：

$\hat{\varepsilon} (h_i)=\frac{1}{m}\underset{j=1}{\overset{m}{\sum}}Z_j=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}\#\{h_{j}(x^{(i)})\neq y^{(i)}\}$

利用Hoeffding不等式，可以得到：

$P( |\varepsilon(h_i)-\hat{\varepsilon}(h_i)|>\gamma )\le2exp(-2\gamma^{2}m)$

从上式可以看出，对于特定的的 $h_i$ ，当m很大时，训练误差和泛化误差很接近的概率很大。但是，我们不仅仅需要考察对于特定的，训练误差和泛化误差的接近程度，而是需要验证对于所有的 $h\in \mathcal H$ 不等式也成立。

现令 $A_i$ 代表事件 $|\varepsilon(h_i)-\hat{\varepsilon}(h_i)|>\gamma$ ，对于任意 $A_i$ ，存在 $P(A_i)\le2exp(-2\gamma^2m)$ ，因此，由引理1可得：

$\begin{aligned}P(\exists h\in\mathcal H.|\varepsilon(h_i)-\hat{\varepsilon}(h_i)|>\gamma)&=P(A_1\cup...\cup A_k)\\&\le\underset{i=1}{\overset{k}{\sum}}P(A_i)\\&\le\underset{i=1}{\overset{k}{\sum}}2exp(-2\gamma^2m)\\&=2k\,exp(-2\gamma^2m)\end{aligned}$

也可以得到他的等价式：

$\begin{aligned}P(\neg \exists h\in\mathcal H . \left|\varepsilon(h_i)-\hat{\varepsilon}(h_i)\right|>\gamma)&=P(\forall h\in\mathcal H . \left|\varepsilon(h_i)-\hat{\varepsilon}(h_i)\right|\le\gamma)\\ &\ge1-2k\,exp(-2\gamma^2m) \end{aligned}$

上式表示了假设集 $\mathcal H$ 内任意假设函数的训练误差和泛化误差的的接近程度小于一个常数 $\gamma$ 的概率有下界，并且随着样本量的增加，训练误差接近泛化误差的概率随之增大。上式的结果称为一致收敛。下面以此不等式引出个推论：

样本量下界：
以上的不等式有三个元素：样本量m，误差阈值 $\gamma$ 和概率，通过任意两个元素，可以确定第三个元素。例如，我们可以关心下列问题：如果给定 $\gamma$ 和 $\delta>0$ ，我们需要多大的样本量才能保证训练误差和泛化误差相差不超过 $\gamma$ 的概率最小为 $1-\delta$ ？令 $\delta =2k\,exp(-2\gamma^2m)$ 可以解出m：

$m\ge \frac{1}{2\gamma^2}log\frac{2k}{\delta}$

上面的不等式确定了一个m的下界，该下界称为算法的样本复杂度（algorithm’s sample complex），也就是说，如果我们想通过样本对总体有个较为准确的估计，我们需要采集最小的样本量是多少。
误差界限：

如果我们固定m和 $\delta$ 的值，求解 $\gamma$ ，可以得到：

$\gamma=|\hat{\varepsilon}(h)-\varepsilon(h)|\le\sqrt{\frac{1}{2m}log\frac{2k}{\delta}}$

假设一致收敛成立，那么对于所有 $h\in\mathcal H$ ，有 $|\varepsilon(h)-\hat{\varepsilon}(h)|\le \gamma$ ，那么，可以得到样本泛化误差和总体泛化误差的距离：

令 $\hat{h}=arg\,min_{h\in \mathcal H}\hat{\varepsilon} (h)$ ， $h^*=arg\,min_{h\in\mathcal H}\varepsilon (h)$ ，即h*表示在集合 $\mathcal H$ 中使得泛化误差最小的那个假设函数。那么有：

$\begin{aligned} \varepsilon(\hat{h})&\le\hat{\varepsilon}(\hat{h})+\gamma\\&\le \hat{\varepsilon}(h^*)+\gamma\\&\le\varepsilon(h^*)+2\gamma \end{aligned}$

上式第一行不等式依据的是 $|\varepsilon(h)-\hat{\varepsilon}(h)|\le \gamma$ 和 $\hat{\varepsilon}(\hat{h})\le \hat{\varepsilon}(h)$ ，不等式第二行是由 $\hat{\varepsilon}(\hat{h})$ 是对样本最小的误差的假设函数，因此小于，第三行是根据不等式 $|\varepsilon(h)-\hat{\varepsilon}(h)|\le \gamma$ 。从不等式可以看出，对于 $\hat{h}$ （即利用训练集得到的假设函数）的泛化误差在任何情况下也不会比最理想的泛化误差多 $2\gamma$ 。结合前面的结论，我们可以得到定理1：

定理1：令 $|\mathcal H|=k$ ，且m和 $\delta$ 值固定，在误差小于一个阈值的概率为至少为 $1-\delta$ 的情形下，有：

$\varepsilon(\hat{h})\le(\underset{h\in\mathcal H}{min}\varepsilon(h))+2\sqrt{\frac{1}{2m}log\frac{2k}{\delta}}$

定理1给出了一个很重要的结论：如果我们扩充假设类集合的范围，即由原来的假设类 $\mathcal H$ 扩充为 $\mathcal H'$ 即 $\mathcal H \subseteq \mathcal H'$ ，则上式第一项（可以非正式的视其为偏差）的值会变小，因为扩充假设类集，可能有更好的假设函数使得最小泛化误差下降；第二项（可以非正式的视其为方差）的值会增大，因为k的值增加了。因此，如果假设类过小，则第一项过大，会造成欠拟合，通过扩充假设类 $\mathcal H$ ，可以使得第一项的值下降，但是第二项值上升，如果扩充过大，会造成过拟合，同样会增加泛化误差。因此要想得到最小的泛化误差，需要在选择合适的 $\mathcal H$ ，即在方差和偏差之间进行权衡。

假如固定 $\gamma$ 和 $\delta$ ，去求解m，我们可以得到一条关于样本复杂度的推论：

推论1：令 $|\mathcal H|=k$ ， $\gamma$ 和 $\delta$ 为定值，再令 $\varepsilon(\hat{h})\le min_{h\in \mathcal H}\varepsilon(h)+2\gamma$ 的概率不低于 $1-\delta$ ，那么样本量需满足：

$m\ge \frac{1}{2\gamma^2}log\frac{2k}{\delta}=O(\frac{1}{\gamma^2}log\frac{k}{\delta})$

4.无穷集

前一节我们介绍了在假设类集合是有穷集的情况下泛化误差、训练误差和样本量之间的关系。然而，存在很多以实数为参数的模型，假设类集合中元素数量是无穷的（如线性分类问题）。我们将如何处理？

下面以线性分类为例，假设分类的决策边界由线性函数表示，且该线性函数有d个实数参数。如果我们用计算机表示这些实数，根据IEEE双精度浮点数的标准，用64位二进制表示一个实数，那么，这d个实数需要用64d个2进制位表示，因此，这里假设类集合最多由 $k=2^{64d}$ 个元素构成。由推论1可得，如果需要保证 $\varepsilon(\hat{h})\le \varepsilon(h^*)+2\gamma$ 的概率不小于 $1-\delta$ ，需满足 $m\le O(\frac{1}{\gamma^2}log\frac{2^{64d}}{\delta})=O(\frac{d}{\gamma^2}log\frac{1}{\delta})=O_{\gamma,\delta}(d)$ ，因此可以看出，训练样本量和模型参数数量为线性关系。事实上，依赖64位浮点数无法得出准确的参数，然而，如果我们尝试去最小化训练误差，也会得出理想的假设函数。

前文的结论是依赖于 $\mathcal H$ 的参数设置。如在线性分类器中 $h_\theta=1\{\theta_0+\theta_1x_1+...+\theta_nx_n\}$ ，此处有n+1个参数。如果这样定义分类器： $h_{u,v} =1\{(u_0^2-v_0^2)+(u_1^2-v_1^2)x_1+...+(u_n^2-v_n^2)x_n\}$ ，此时有2n+2个参数，但是这二者定义了相同的 $\mathcal H$ ：在n维空间的线性分类器。

最后通过引入VC维的概念，将误差理论推广到更加一般的情形：

VC维

给定一个集合； $S=\{x^{(1)},...,x^{(d)}\}$ ， $x^{(i)}\in\mathcal X$ ,这d个点可以用 $2^d$ 种方法正负样本。如果存在 $h\in\mathcal H$ 可以将这 $2^d$ 种标记的情况都能够有效分类，我们就称 $\mathcal H$ 可以散列（shatter）S。通过 $\mathcal H$ 集合中的某个假设函数h，可以对这个点构成的任何情况进行无误差的分类。将一个假设集能够无误差分类的最大的点的数量称为改假设集的VC维，记作 $VC(\mathcal H)$ 。

下面举例说明，假设有三个点如下图所示：

这三个样本点有2³=8种分类可能，如果使用线性分类器对其进行分类，可以得到“零训练误差”，如下图所示：

然而，线性分类器最多对3个点构成的所有可能分类情况进行无误差分类。如果超过3个点线性分类器将无法进行分类。如下图所示：

这里的结论可能很悲观，线性分类器在二维平面上至多只能给3个点进行无误差的分类。（更一般的，k维线性分类器最多只能给k+1个点进行无误差分类。）然而，实际的应用中，并不需要构建一个模型使得对于训练集进行无误差的分类，甚至分类过于精确，会使得模型的泛化能力变得很弱，因此VC维仅仅是保证理论的严密，以及可以相关证明的前提条件，并不能完全做为分类算法准确程度的度量。
最后，介绍两个重要的定理：

定理2：令 $\mathcal H$ 为给定的假设集，且 $d=VC(\mathcal H)$ ，在概率不小于 $1-\delta$ 的情况下，对于任意 $h\in\mathcal H$ ，有：

$|\varepsilon(h)-\hat{\varepsilon}(h)|\le O(\sqrt{\frac{d}{m}log\frac{m}{d}+\frac{1}{m}log\frac{1}{\delta}} )$

同样有

$\varepsilon(\hat{h})\le\varepsilon(h^*)+O(\sqrt{\frac{d}{m}log\frac{m}{d}+\frac{1}{m}log\frac{1}{\delta}} )$

也就是说，如果一个假设集 $\mathcal H$ ，VC维是有限的，那么，随着m的增大，任意 $h\in\mathcal H$ 的训练误差和泛化误差一致收敛。并且有如下推论：

推论2：假设 $|\varepsilon(h)-\hat{\varepsilon}(h)|\le\gamma$ 且对于所有 $h\in\mathcal H$ 要确保其概率不低于 $1-\delta$ ，需满足 $m=O_{\gamma,\delta}(d)$ 。

推论2的含义是，如果需要确保训练误差和泛化误差的差值在一个给定的范围内，并且发生的概率不低于 $1-\delta$ ，需要的样本数量和假设集的VC维大小呈线性相关。

5.总结

本文给出了训练误差和泛化误差的一般性定义；并介绍了ERM原则；证明了泛化误差和训练误差间差距、样本量和误差概率之间的关系；最后通过引入VC维，推出了更一般的情况下他们之间的关系。

您可能感兴趣的与本文相关的镜像

Langchain-Chatchat

AI应用

Langchain

Langchain-Chatchat 是一个基于 ChatGLM 等大语言模型和 Langchain 应用框架实现的开源项目，旨在构建一个可以离线部署的本地知识库问答系统。它通过检索增强生成 (RAG) 的方法，让用户能够以自然语言与本地文件、数据库或搜索引擎进行交互，并支持多种大模型和向量数据库的集成，以及提供 WebUI 和 API 服务