应用数学与机器学习基础 - 估计、偏差和方差篇

绎岚科技

已于 2024-10-13 21:41:11 修改

阅读量1.2k

点赞数 18

分类专栏：深度学习机器学习文章标签：深度学习人工智能

于 2024-06-22 08:30:00 首次发布

本文链接：https://blog.csdn.net/benny_zhou2004/article/details/139806977

版权

机器学习同时被 2 个专栏收录

167 篇文章 2 订阅

订阅专栏

深度学习

138 篇文章 1 订阅

订阅专栏

序言

在统计学和数据分析中，估计、偏差和方差是三个核心概念，它们为理解数据的不确定性、评估预测或模型的准确性提供了基础。估计通常指的是基于观测数据对某个未知参数或总体特征进行的推断。偏差则衡量了估计值与真实值之间的差异，它反映了估计的准确度。而方差则描述了数据点与其平均值之间的离散程度，或者说估计的波动性。

在实际应用中，无论是进行市场调研、预测股票价格，还是设计机器学习模型，我们都需要依赖估计来做出决策。然而，这些估计值往往不是完美的，它们可能会受到各种因素的影响，如样本大小、抽样方法、测量误差等。因此，了解估计的偏差和方差，有助于我们评估这些估计的可靠性和稳定性。

估计、偏差和方差

统计领域为我们提供了很多工具用于实现机器学习目标，不仅可以解决训练集上的任务，还可以泛化。基本的概念，例如参数估计，偏差和方差，对于形式化刻画泛化，欠拟合和过拟合都非常有帮助。
点估计（point estimation）
- 点估计试图为一些感兴趣的量提供单个“最优”预测。一般地，感兴趣的量可以是单个参数，或是某些参数模型中的一个向量参数，但也有可能是整个函数。
- 定义：
  - 为了区分参数估计和真实值，我们习惯表示参数 $\theta$ 的点估计为 $\hat{\theta}$ 。
  - 让 $\{\boldsymbol{x}^{(1)},\dots,\boldsymbol{x}^{(m)} \}$ 是 $m$ 个独立同分布（i.i.d）的数据点。
  - 点估计（point estimator）或统计量（statistics）是这些数据的任意函数：
    $\hat{\theta}_m = g(\boldsymbol{x}^{(1)},\dots,\boldsymbol{x}^{(m)})$
- 说明：
  - 这个定义不要求 $g$ 返回一个接近真实值 $\theta$ 的值，或者 $g$ 的值域恰好是 $\theta$ 的允许取值范围。点估计的定义非常广泛，给了估计量的设计者极大的灵活性。
  - 虽然几乎所有的函数都可以称为估计量，但是一个好的估计量的输出会接近生成训练数据的真实参数 $\theta$ 。
  - 现在，我们采取频率派在统计上的观点。换言之，我们假设真实参数 $\theta$ 是固定但未知的，而点估计 $\hat{\theta}$ 是数据的函数。由于数据是随机过程采样出来的，数据的任何函数都是随机的。因此 $\hat{\theta}$ 是一个随机变量。
  - 点估计也可以指输入和目标变量之间关系的估计。我们将这类点估计称为函数估计。
函数估计（function estimation）：
- 有时我们会关注函数估计（或函数近似）。这时我们试图从输入向量 $\boldsymbol{x}$ 预测变量 $\boldsymbol{y}$ 。我们假设有一个函数 $f(\boldsymbol{x})$ 表示 $\boldsymbol{y}$ 和 $\boldsymbol{x}$ 之间的近似关系。
- 例如：
  - 我们可能假设 $\boldsymbol{y} = f(\boldsymbol{x}) + \epsilon$ ，其中 $\epsilon$ 是 $\boldsymbol{y}$ 中未能从 $\boldsymbol{x}$ 预测的一部分。
  - 在函数估计中，我们感兴趣的是用模型估计去近似 $f$ ，或者估计 $\hat{f}$ 。
  - 函数估计和参数估计 $\theta$ 是一样的。
$k$ -折交叉验证算法
- 当给定数据集 $\mathbb{D}$ ，对于简单的（训练/测试）或者（训练/验证）分割而言太小难以产生泛化误差的准确估计时（因为在小的测试集上， $L$ 可能具有过高的方差）， $k$ -折交叉验证算法可以用于估计学习算法 $A$ 的泛化误差。
- 数据集 $\mathbb{D}$ 包含的元素是抽象的样本 $z^{(i)}$ （对于第 $i$ 个样本）
  - 在监督学习的情况代表（输入，目标）对 $\boldsymbol{z}^{(i)} = (\boldsymbol{x}^{(i)}, y^{(i)})$ 。
  - 在无监督学习的情况下仅用于输入 $\boldsymbol{z}^{(i)} = \boldsymbol{x}^{(i)}$ 。
- 该算法返回 $\mathbb{D}$ 中每个示例的误差向量 $e$ ，其均值是估计的泛化误差。单个样本上的误差可用于计算平均值周围的置信区间（confidence interval）。虽然这些置信区间在使用交叉验证之后不能很好地证明，但是通常的做法是只有当算法 $A$ 误差的置信空间低于并且不与算法 $B$ 的置信空间相交时，我们才声明算法 $A$ 比 $B$ 更好。
偏差（bias）：
- 定义：
  - 估计的偏差定义被为： $\text{bias}(\hat{\theta}_m) = \mathbb{E}(\hat{\theta}_m) - \theta$
- 说明：
  - 其中， $\mathbb{E}$ 期望作用在所有数据（看作是从随机变量采样得到的）上， $\theta$ 是用于定义数据生成分布（data generating distribution）)的 $\theta$ 的真实值。
  - 如果 $\text{bias}(\hat{\theta}_m) = 0$ ，那么估计量 $\hat{\theta}_m$ 称为是渐近无偏（asymptotically unbiased），这意味着 $\lim_{m \to \infty}\mathbb{E}(\hat{\theta}_m) = \theta$ 。
- 实例1：伯努利分布（Bernoulli distribution）
  - 考虑一组服从均值为 $\theta$ 的伯努利分布的独立同分布采样 $\{ x^{(1)},\dots,x^{(m)} \}$ ： $P(x^{(i)};\theta) = \theta^{x^{(i)}} (1-\theta)^{\displaystyle{(1-x^{(i)})}}$ 。
  - 说明
    - 这个分布中参数 $\theta$ 的常用估计量是训练样本的均值： $\displaystyle{\hat{\theta}_m}= \displaystyle{\frac{1}{m}\sum\limits_{i=1}^{m} x^{(i)}}$
    - 判断这个估计量是否有偏差，过程推导如下：
      $\begin{cases}\begin{array}{l} \text{bias}(\hat{\theta}_m) = \mathbb{E}(\hat{\theta}_m) - \theta\\\\ \qquad\qquad = \displaystyle{\mathbb{E} \left[ \frac{1}{m}\sum\limits_{i=1}^{m} x^{(i)} \right] - \theta}\\\\ \qquad\qquad = \displaystyle{\frac{1}{m} \sum\limits_{i=1}^{m} \mathbb{E}[x^{(i)}] - \theta}\\\\ \qquad\qquad = \displaystyle{\frac{1}{m} \sum\limits_{i=1}^{m} \sum\limits_{x^{(i)}=0}^1 \left( x^{(i)} \theta^{x^{(i)}}(1 - \theta)^{(1 - x^{(i)})} \right) - \theta}\\\\ \qquad\qquad = \displaystyle{\frac{1}{m} \sum\limits_{i=1}^m (\theta) - \theta}\\\\ \qquad\qquad = \theta - \theta = 0 \end{array}\end{cases}$
    - 因为 $\text{bias}(\hat{\theta}_m) = 0$ ，所以我们称估计 $\hat{\theta}_m$ 是无偏的。
- 实例2：均值的高斯分布估计（Gaussian distribution mean estimate）
  - 考虑一组独立同分布的样本 $\{ x^{(1)},\dots,x^{(m)} \}$ 服从高斯分布 $p(x^{(i)})=\mathcal{N}(x^{(i)};\mu,\sigma^2)$ ，其中 $\in \{1,\dots,m\}$ 。
  - 回顾高斯概率密度函数，如下： $p(x^{(i)};\mu,\sigma^2) = \displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}} e^{\left(\displaystyle{-\frac{(x^{(i)}-\mu)^2}{2\sigma^2}}\right)}}$
  - 高斯均值参数的常用估计量被称为样本均值（sample mean）： $\hat{\mu}_m = \displaystyle{\frac{1}{m}\sum\limits_{i=1}^{m} x^{(i)}}$
  - 判断样本均值是否有偏差，我们再次计算它的期望，过程推导如下：
    $\begin{cases}\begin{array}{l} \text{bias}(\hat{\mu}_m) = \mathbb{E}(\hat{\mu}_m) - \mu\\\\ \qquad\qquad = \displaystyle{\mathbb{E} \left[ \frac{1}{m}\sum\limits_{i=1}^{m} x^{(i)} \right] - \mu}\\\\ \qquad\qquad = \displaystyle{ \left( \frac{1}{m} \sum\limits_{i=1}^{m} \mathbb{E}[x^{(i)}]\right) - \mu}\\\\ \qquad\qquad = \displaystyle{ \left( \frac{1}{m} \sum\limits_{i=1}^{m} \mu\right) - \mu}\\\\ \qquad\qquad = \displaystyle{ \mu - \mu} = 0\\\\ \end{array}\end{cases}$
  - 因此我们发现样本均值是高斯均值参数的无偏估计量。
- 实例3：高斯分布方差估计（Gaussian distribution variance estimate）
  - 我们比较高斯分布方差参数 $\sigma^2$ 的两个不同估计。探讨是否有一个是有偏的。
  - 考虑的第一个方差估计被称为样本方差（sample variance）： $\hat{\sigma}_m^2 = \displaystyle{\frac{1}{m}\sum\limits_{i=1}^{m} (x^{(i)} - \hat{\mu}_m)^2}$ ，其中 $\hat{\mu}_m$ 是样本均值。
  - 更形式地，我们感兴趣计算偏差： $\text{bias}(\hat{\sigma}_m^2) = \mathbb{E}[\hat{\sigma}_m^2] - \sigma^2$
  - 首先估计项 $\mathbb{E}[\hat{\sigma}_m^2]$ ，即：
    - $\mathbb{E}[\hat{\sigma}_m^2] = \mathbb{E} \left[ \displaystyle{\frac{1}{m}} \sum\limits_{i=1}^m (x^{(i)} - \hat{\mu}_m)^2 \right]$
  - 判断样本均值是否有偏差，过程推导如下：
    $\begin{cases}\begin{array}{l} \mathbb{E}[\hat{\sigma}_m^2] = \mathbb{E} \left[ \displaystyle{\frac{1}{m}} \sum\limits_{i=1}^m (x^{(i)} - \hat{\mu}_m)^2 \right]\\\\ \qquad\quad= \displaystyle{\frac{1}{m}} \sigma^2 \end{array}\end{cases}$
  - 我们可以得出 $\hat{\sigma}_m^2$ 的偏差是 $-\sigma^2/m$ 。因此样本方差是有偏估计。
- 无偏样本方差估计（unbiased sample variance estimate）
  - $\tilde{\sigma}_m^2 = \displaystyle{\frac{1}{m-1}\sum\limits_{i=1}^{m} (x^{(i)} - \hat{\mu}_m)^2}$ 提供了另一种可选方法。正如名字所言，这个估计是无偏的。
  - 换言之，我们会发现 $\mathbb{E}[\tilde{\sigma}_m^2] = \sigma^2$ ，过程推导如下：
    $\begin{cases}\begin{array}{l} \mathbb{E}[\tilde{\sigma}_m^2] = \mathbb{E} \left[ \displaystyle{\frac{1}{m-1}\sum\limits_{i=1}^{m} (x^{(i)} - \hat{\mu}_m)^2} \right]\\\\ \qquad\quad = \displaystyle{\frac{m}{m-1}} \mathbb{E}[\hat{\sigma}_m^2]\\\\ \qquad\quad = \displaystyle{\frac{m}{m-1} } \left( \frac{m-1}{m}\sigma^2\right)\\\\ \qquad\quad = \sigma^2 \end{array}\end{cases}$
- 总结：
  - 我们有两个估计量：一个是有偏的，另一个是无偏的。尽管无偏估计显然是可取的，但它并不总是“最好”的估计。我们将看到，经常会使用其他具有重要性质的有偏估计。
方差和标准误差（variance and standard error）
- 我们有时会考虑估计量的另一个性质，数据样本函数的变化程度。
- 定义：
  - 正如我们可以计算估计量的期望来决定它的偏差，我们也可以计算它的方差。估计量的方差 (variance) 就是一个方差，记作 $\text{Var}(\hat{\theta})$ ，其中随机变量是训练集。另外，方差的平方根被称为标准误差（standard error），记作 $\text{SE}(\hat{\theta})$
- 估计量的方差或标准方差告诉我们，当独立地从潜在的数据生成过程中重采样数据集时，如何期望估计的变化。正如我们希望估计的偏差较小，我们也希望其方差较小。
- 当我们使用有限的样本计算任何统计量时，真实参数的估计都是不确定的，在这个意义上，从相同的分布得到其他样本时，它们的统计量会不一样。任何方差估计量的期望程度是我们想量化的误差的来源。
- 均值的标准误差，记作： $\text{SE}(\hat{\mu}_m) = \sqrt{\text{Var} \left[\displaystyle{\frac{1}{m}}\sum\limits_{i=1}^2 x^{(i)}\right]} = \displaystyle{\frac{\sigma}{\sqrt{m}}}$
  - 其中 $\sigma^2$ 是样本 $x^{(i)}$ 的真实方差。标准误差通常被记作 $\sigma$ 。
  - 不幸的是，样本方差的平方根和方差无偏估计的平方根都不是标准差的无偏估计。
  - 这两种计算方法都倾向于低估真实的标准差，但仍用于实际中。
  - 相较而言，方差无偏估计的平方根较少被低估。对于较大的 $m$ ，这种近似非常合理。
- 均值的标准误差在机器学习实验中非常有用。
  - 我们通常用测试集样本的误差均值来估计泛化误差。
  - 测试集中样本的数量决定了这个估计的精确度。
  - 中心极限定理告诉我们均值会接近一个高斯分布，我们可以用标准误差计算出真实期望落在选定区间的概率。
  - 例如，以均值 $\hat{\mu}_m$ 为中心的95%置信区间： $(\hat{\mu}_m - 1.96 \cdot \text{SE}(\hat{\mu}_m), \hat{\mu}_m + 1.96 \cdot \text{SE}(\hat{\mu}_m))$
    - 以上区间是基于均值 $\hat{\mu}_m$ 和方差 $\text{SE}(\hat{\mu}_m)^2$ 的高斯分布。
    - 在机器学习实验中，我们通常说算法 $A$ 比算法 $B$ 好，是指算法 $A$ 的误差的95%置信区间的上届小于算法 $B$ 的误差的95%置信区间的下界。
- 实例：伯努利分布（Bernoulli distribution）
  - 考虑伯努利分布 $P(x^{(i)};\theta)=\theta^{x^{(i)}} (1-\theta)^{1-x^{(i)}}$ 中独立同分布采样出来的一组样本 $\{ x^{(1)},\dots,x^{(m)} \}$ 。我们关注估计 $\hat{\theta}_m = \frac{1}{m} \sum\limits_{i=1}^{m} x^{(i)}$ 的方差：
    $\begin{cases}\begin{array}{l} \text{Var}(\hat{\sigma}_m) = \text{Var}(\displaystyle{\frac{1}{m}} \sum\limits_{i=1}^{m} x^{(i)})\\\\ \qquad\qquad = \displaystyle{\frac{1}{m^2}} \sum\limits_{i=1}^{m} \text{Var}(x^{(i)})\\\\ \qquad\qquad = \displaystyle{\frac{1}{m^2}} \sum\limits_{i=2}^{m} \theta (1-\theta)\\\\ \qquad\qquad = \displaystyle{\frac{1}{m^2}} \cdot m \cdot \theta (1-\theta)\\\\ \qquad\qquad = \displaystyle{\frac{1}{m}} \theta (1 - \theta)\\\\ \end{array}\end{cases}$
  - 估计量方差的下降速率是关于数据集样本数目 $m$ 的函数。这是常见估计量的普遍性质。
权衡偏值和方差以最小化均方误差
- 偏差和方差，度量着估计量的两个不同误差来源。
- 偏差，度量着离真实函数或参数的误差期望。而方差，度量着数据上任意特定采样可能导致的估计期望的偏差。
- 问题：
  - 当可以选择一个偏差更大的估计和一个方差更大的估计时，会发生什么呢？我们该如何选择？
  - 当只可以选择一个偏差较大的估计或一个方差较大的估计，我们该如何选择呢？
- 均方误差（mean squared error）
  - 判断这种权衡最常用的方法是交叉验证。经验上，交叉验证在许多真实世界的任务中都非常成功。
  - 另外，我们也可以比较这些估计的均方误差（mean squared error，MSE），即：
    $\begin{cases}\begin{array}{l}\text{MSE}=\mathbb{E}\left[(\hat{\theta}_m-\theta)^2\right]\\ \quad\quad = \text{Bias}(\hat{\theta}_m)^2 + \text{Var}(\hat{\theta}_m) \end{array}\end{cases}$
  - 说明：
    - MSE度量着估计和真实参数 $\theta$ 之间平方误差的总体期望偏差。
    - MSE估计包含了偏差和方差。
    - 理想的估计量具有较小的MSE或是在检查中会稍微约束它们的偏差和方差。
  - 偏差和方差的关系和机器学习容量、欠拟合和过拟合的概念紧密相联。用MSE度量泛化误差（偏差和方差对于泛化误差都是有意义的）时，增加容量会增加方差，降低偏差。
    - 例如：关于容量的函数中，看到泛化误差的U型曲线
    - 说明：
      - 当容量增大（ $x$ 轴）时，偏差随之减小，而方差随之增大，使得泛化误差随之增大。
      - 当沿着轴改变容量，会发现最佳容量，当容量小于最佳容量会出现欠拟合，大于时会出现过拟合。
一致性（consistency）
- 目前我们已经探讨了固定大小训练集下不同估计量的性质。
- 通常，我们也会关注训练数据增多后估计量的效果。特别地，我们希望当数据集中数据点的数量 $m$ 增加时，点估计会收敛到对应参数的真实值。更形象地，我们想要： $\text{plim}_{m \to \infty} \hat{\theta}_m = \theta$ 。
  - 符号 $\text{plim}$ 表示依概率收敛，即对于任意的 $\epsilon>0$ ，当 $\to \infty$ 时， $P(|\hat{\theta}_m - \theta| > \epsilon) \to 0$ 。
  - $\text{plim}_{m \to \infty} \hat{\theta}_m = \theta$ 表示的条件被称为一致性（consistency）。
  - 有时它是指弱一致性，强一致性是指几乎必然（almost sure）从 $\hat{\theta}$ 收敛到 $\theta$ 。
  - 几乎必然收敛（almost sure convergence）是指当 $p(\lim_{m \to \infty} \bold{x}^{(m)} = \boldsymbol{x}) = 1$ 时，随机变量序列 $\bold{x}^{(1)}，\bold{x}^{(2)}，\dots，\bold{x}^{(m)}$ 收敛到 $\boldsymbol{x}$ 。
- 一致性保证了估计量的偏差会随数据样本数据的增多而减少。然而，反过来是不正确的，即渐近无偏并意味着一致性。
- 例如：考虑用包含 $m$ 个样本的数据集 $\{ x^{(1)},\dots,x^{(m)} \}$ 估计正态分布 $\mathcal{N}(x;\mu,\sigma^2)$ 的均值参数 $\mu$ 。
  - 我们可以使用数据集的第一个样本 $x^{(i)}$ 作为无偏估计量： $\hat{\theta} = x^{(1)}$ 。
  - 在该情况下， $\mathbb{E}(\hat{\theta}_m) = \theta$ ，所以不管观测到多少数据点，该估计量都是无偏的。
  - 然而，这不是一个一致估计，因为它不满足当 $\to \infty$ 时， $\hat{\theta}_m \to \theta$ 。

总结

估计、偏差和方差是数据分析中不可或缺的工具。通过估计，我们可以基于有限的数据对未知参数进行推断；而偏差和方差则提供了评估这些估计准确度和稳定性的指标。在实际应用中，我们需要综合考虑这些因素，以做出更明智的决策。

具体来说，当面对一个估计问题时，我们首先需要收集足够的数据，并采用适当的估计方法。然后，我们需要计算估计的偏差和方差，以了解其准确性和稳定性。如果估计的偏差较大，我们可能需要考虑调整模型或改进数据收集方法；如果方差较大，我们可能需要增加样本量或减少噪声干扰。通过不断地优化和改进，我们可以提高估计的准确性和可靠性，为决策提供更有力的支持。