【深度学习】图形模型基础(4)：回归模型理论基础——统计、数据分析与回归分析-CSDN博客

本文链接：https://blog.csdn.net/MUKAMO/article/details/140145422

1.绪论

统计学，作为一门数学科学，其核心使命在于精心设计分析方法，旨在从不完整、往往充满干扰的数据海洋中提炼出坚实可靠的结论。它并非直接探究自然界或人类社会的纷繁现象本身，而是聚焦于我们如何借助科学的工具与手段，深刻洞察这些现象背后的规律与真相。统计学的辅助角色无可替代，它为众多学科搭建起了一座桥梁，有效应对了数据收集过程中普遍存在的局限性——无论是观测范围的局限、关键信息的间接获取，还是数据本身难以避免的噪声干扰。

两个世纪以来，统计学巧妙地将这些不完美因素纳入随机过程的框架之中，使得概率论成为其理论体系的基石。在抽样调查等实践中，统计学甚至主动引入随机性，以科学的方式应对数据的不完整性。这一策略不仅丰富了统计学的内涵，也极大地拓宽了其应用范围。

统计学不仅限于利用概率模型模拟数据推断过程，更致力于深入剖析各种推断方法的本质特性：它们的有效边界何在？可能产生的误差类型及其频率如何？在成功时能提供哪些有价值的信息？以及在何种情况下可能失效或出现错误的迹象？与工程领域的持续创新相似，统计学也在不懈地追求对现有方法的深刻理解与不断改进，旨在实现数据分析的更高可靠性、精确度、广泛适用性、效率与便捷性。当然，这些目标之间时常存在微妙的平衡与取舍，如快速简便的方法可能伴随较高的错误风险或局限的适用范围。

在探索变量间复杂关系的征途中，统计学提供了强大的工具集，其中回归分析无疑是最为耀眼的明星之一。基于您在线性回归课程中的坚实基础，本书将进一步拓宽视野，引领您走进线性回归之外的广阔天地，探索更多元化的分析方法，以解答关于变量间关系的深层次问题。

预测，作为理解变量关系的关键一环，其重要性不言而喻。虽然预测并非我们追求变量关系理解的唯一终极目标，但它却是检验我们理解深度与准确性的重要标尺。如果我们对变量关系的理解存在偏差，或许仍能勉强进行预测，但要想实现精准预测，则必须建立在对关系本质的深刻理解之上。因此，在深入探索其他分析方法之前，本书将首先带您领略预测的基本概念与原理，揭示如何从无到有地构建一个变量的预测模型。随后，我们将逐步深入，探讨变量之间的预测性关系，以及线性回归如何在众多平滑技术中占据一席之地，成为连接理论与实践的重要桥梁。

2. 预测随机变量的值

我们面对一个定量的数值变量，暂且富有想象力地称之为 $Y$ 。假设它是一个随机变量，我们试图通过猜测它的一个单一值来预测它。（请注意，尽管这里专注于单一值的预测，但其他类型的预测（如预测 $Y$ 是否落在某个范围内、其概率分布等）同样重要，且本节学到的原理也适用于这些场景。）那么，我们应该猜测什么值呢？换句话说， $Y$ 的最佳点预测是什么？

为了回答这个问题，我们需要定义一个评估我们猜测好坏的函数，即一个衡量预测误差的函数。一个合理且常用的选择是均方误差（MSE）：

$\text{MSE}(m) \equiv E[(Y - m)^2] \quad \text{(1.1)}$
我们的目标是找到使 $\text{MSE}(m)$ 最小的值 $\mu$ 。首先，我们可以将MSE重写为偏差的平方加上方差的形式：

$\text{MSE}(m) = E[(Y - m)^2] \quad \text{(1.2)}$ $m])^2 + \text{Var}[Y - m] \quad \text{(1.3)}$
由于方差 $\text{Var}[Y - m]$ 不依赖于我们的预测 $m$ （仅与 $Y$ 的分布有关），我们可以进一步简化为：

$m)^2 + \text{Var}[Y] \quad \text{(1.4)}$
注意到，上式中的第一项（偏差的平方项）是唯一依赖于我们预测 $m$ 的部分。为了找到使MSE最小的 $m$ ，我们对其求关于 $m$ 的导数，并在最优预测 $\mu$ 处令其为零：

$\frac{d\text{MSE}}{dm} = -2(E[Y] - m) \quad \text{(1.6)}$
在 $\mu$ 时，该导数为零：

$\mu) = 0 \quad \text{(1.7)}$
解得：

$\mu = E[Y] \quad \text{(1.9)}$
因此，如果我们以均方误差作为预测质量的衡量标准，那么最佳的预测就是随机变量 $Y$ 的期望值。

2.1 估计期望值

在实际应用中，我们往往不知道 $Y$ 的确切期望值。但是，如果我们有一组样本值 $y_1, y_2, \ldots, y_n$ ，我们可以通过样本均值来估计期望值：

$\mu_b \equiv \frac{1}{n} \sum_{i=1}^{n} y_i \quad \text{(1.10)}$
如果样本是独立同分布（IID）的，根据大数定律，我们有：

$\mu_b \rightarrow E[Y] = \mu \quad \text{(1.11)}$
此外，方差的代数性质（此处略去具体推导，见练习1.1）可以告诉我们关于收敛速度的信息，即平方误差通常接近 $\text{Var}[Y]/n$ 。

当然，假设样本是IID是一个很强的假设，但如果样本只是具有共同期望值且不相关，我们几乎可以得出相同的结论。即使样本之间存在相关性，只要这种相关性衰减得足够快，唯一改变的就是收敛速度。因此，“收集样本，计算均值”是一种相当可靠且通用的估计期望值的方法。

3. 回归函数

在数据分析与预测建模中，仅仅基于单一变量进行预测往往显得局限性较大。通常，我们的数据集包含多个变量，且这些变量之间可能存在一定的相关性。例如，假设我们拥有关于两个变量X和Y的数据集，它们之间的关系可能如图1.1所示。在这里， $Y$ 是我们试图预测的变量，通常被称为因变量、输出、响应或回归目标，而 $X$ 则是用于预测的变量，称为自变量、输入或回归因子。

$Y$ 可以是客户的盈利能力，而X则是他们的信用评级；或者，为了更通俗地说明，Y可以是血液胆固醇的改善程度，而 $X$ 则是服用的药物剂量。值得注意的是，实际应用中我们往往拥有多个输入特征 $X$ ，但为简化说明，这里主要讨论单一特征的情况。

图1.2展示了与图1.1相同的数据集，但额外添加了样本均值线。这条线不仅提供了数据集的一些基本信息，还暗示了通过考虑 $X$ 而非忽略它，我们有可能减少预测的平均误差。

假设我们希望构建一个预测模型，其预测值f(X)是 $X$ 的函数。为了评估这个模型的性能，我们通常使用均方误差（MSE）作为损失函数。那么，这个函数f(X)应该如何选择以最小化MSE呢？

我们可以利用全期望定律（即对于任意随机变量U和V，有 $E [U] = E [E [U ∣ V]]$ ）来推导最佳函数形式。MSE的定义如下：

$\text{MSE}(f) = E[(Y - f(X))^2] \tag{1.12}$
通过条件期望的展开，我们可以进一步得到：

$\text{MSE}(f) = E[E[(Y - f(X))^2|X]] \tag{1.13}$
$E[\text{Var}[Y - f(X)|X] + (E[Y - f(X)|X])^2] \tag{1.14}$
$E[\text{Var}[Y|X] + (E[Y - f(X)|X])^2] \tag{1.15}$
在最小化MSE的过程中，我们注意到第一项 $\text{Var}[Y|X]$ 不依赖于我们的预测函数 $f (X)$ ，因此它是一个常数项。而第二项 $E[Y - f(X)|X])^2$ 则可以通过选择合适的 $f (X)$ 来最小化。具体来说，当 $f (X)$ 等于条件期望 $E [Y ∣ X = x]$ 时，第二项达到最小值0。

因此，最佳预测函数 $μ (x)$ 定义为：

$\mu(x) = E[Y|X = x] \tag{1.16}$
换句话说，（均方）意义下的最佳条件预测就是条件期望值。函数 $μ (x)$ 被称为真实的回归函数、最佳回归函数、总体回归函数或简称为回归函数。这是我们在进行 $Y$ 的预测时希望找到的目标函数。

在讨论回归函数时，明确哪些假设被采用以及哪些没有被采用是非常重要的。将 $X$ 称为“自变量”和Y称为“因变量”虽然方便，但也可能暗示了一个因果模型。然而，需要强调的是，获得方程1.16并不需要这样的因果假设。它在从原因预测结果、从结果预测原因（或“逆向预测”）以及X和 $Y$ 之间不存在明确因果关系的情况下都是有效的。

更一般地，我们可以将 $Y$ 表示为 $X$ 的函数加上一个噪声项 $ε$ ：

$\mu(X) + \epsilon \tag{1.17}$
但请注意，这里的箭头方向（←）并不表示严格的因果关系。在实际应用中，我们更可能遇到的是：

$\mu(X) + \epsilon(X) \tag{1.18}$
其中 $ε (X)$ 是一个期望值为0的随机变量，即 $E [ε ∣ X = x] = 0$ 。但需要注意的是， $ε (X)$ 的分布可能依赖于 $X$ 。

此外，还需要明确的是，如果回归函数μ(x)是一个常数μ0，这并不意味着 $X$ 和 $Y$ 是统计独立的。它们之间的独立性是一个更强的条件，而回归函数为常数只是说明在给定X的条件下， $Y$ 的期望值不随X的变化而变化。反之则不成立，即如果X和Y独立，则回归函数一定是常数，但回归函数为常数并不意味着X和 $Y$ 一定独立。

4. 估计回归函数

我们期望得到回归函数 $\mu(x) = E[Y|X = x]$ ，但实际情况是，我们手头只有一组训练样本，即点集 $(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$ 。面对这样的数据，我们应如何操作呢？

离散 $X$ 值的处理

如果 $X$ 只取有限集合中的值，一个简单而直接的方法是使用条件样本均值来估计 $\mu(x)$ ：

[ \hat{\mu}(x) = \frac{1}{#{i: x_i = x}} \sum_{i:x_i=x} y_i \quad \text{(1.19)} ]

根据大数定律，我们可以合理推断，随着样本量的增加， $\hat{\mu}(x)$ 会趋近于 $E [Y ∣ X = x]$ 。

连续 $X$ 值的挑战

然而，当 $X$ 是连续变量时，问题就变得复杂了。因为从连续分布中抽取完全相同的 $x$ 值的概率几乎为零，因此我们几乎不可能直接通过样本点来精确估计 $\mu(x)$ 。这引出了数据估计中的一个基本问题：函数总是会被欠采样，我们需要填补观测值之间的空隙。此外，每个 $y_i$ 都是从条件分布 $Y|X = x_i$ 中抽取的样本，它们通常不等于 $E[Y|X = x_i]$ 。因此，任何类型的函数估计都需要考虑插值、外推和平滑处理。

回归方法的选择

估计回归函数的不同方法（即不同的回归技术）涉及在插值、外推和平滑方面做出不同的选择。这些选择基于我们如何用有限的函数类别来近似 $\mu(x)$ 。尽管我们不能保证所选方法在当前情况下能给出良好的近似，但随着数据量的增加，近似误差通常会减小。这是一个重要的主题，值得深入探讨。

4.1 偏差-方差权衡

假设真实的回归函数是 $\mu(x)$ ，但我们使用函数 $\hat{\mu}$ 进行预测。为了更清楚地理解当不能使用 $\mu$ 进行预测时会发生什么，我们以一种新的方式考察 $X = x$ 时的均方误差（MSE）。

首先，我们展开 $\hat{\mu}(x))^2$ ，因为 $x$ 处的 MSE 就是该表达式的期望值：

$\hat{\mu}(x))^2 = (Y - \mu(x) + \mu(x) - \hat{\mu}(x))^2 \quad \text{(1.20)} \\= (Y - \mu(x))^2 + 2(Y - \mu(x))(\mu(x) - \hat{\mu}(x)) + \\(\mu(x) - \hat{\mu}(x))^2 \quad \text{(1.21)}$

由于 $\mu(X) = \epsilon$ ，其中 $\epsilon$ 是一个与 $X$ 不相关且期望值为零的随机变量，我们可以对方程 1.21 取期望值。这样，中间项会变为零（因为 $\mu(X)] = E[\epsilon] = 0$ ），而第一项变成了 $\epsilon$ 的方差，记为 $\sigma^2(x)$ ：

$\text{MSE}(\hat{\mu}(x)) = \sigma^2(x) + (\mu(x) - \hat{\mu}(x))^2 \quad \text{(1.22)}$

$\sigma^2(x)$ 项不依赖于我们的预测函数，它只反映了在 $X = x$ 时预测 $Y$ 的固有难度。第二项则是由于我们不知道 $\mu$ 而产生的额外误差，它衡量了我们的预测系统性偏离真实值的程度。这就是偏差-方差分解的核心： $x$ 处的总 MSE 被分解为平方偏差 $(\mu(x) - \hat{\mu}(x))^2$ 和方差 $\sigma^2(x)$ ，后者即使是在最佳预测周围也会存在的不可预测的、“统计”波动。

需要注意的是，上述分析假设 $\hat{\mu}$ 是一个固定的单一函数。但在实际中， $\hat{\mu}$ 是从随机数据中估计出来的，因此它本身也是随机的。如果我们考虑所有可能的训练数据集，那么就需要分析 MSE 的条件期望，即 $\text{MSE}(\hat{\mu}(x)|\hat{\mu} = \text{某个特定函数})$ 。这将进一步揭示回归方法在不同数据集上的平均预测性能。

MSE的进一步分解与偏差-方差权衡

在回归分析中，均方误差（MSE）是衡量模型预测性能的重要指标。当我们使用某个估计函数 $M_{cn}(x)$ （其中 $c n$ 代表该函数是基于有限数据集 $n$ 的估计）来预测 $Y$ 时， $x$ 处的MSE可以表示为：

$\text{MSE}(M_{cn}(x)) = E[(Y - M_{cn}(X))^2 | X = x] \quad \text{(1.23)}$
为了更深入地理解这个误差的来源，我们可以进一步分解它。首先，注意到 $M_{cn}$ 本身是一个随机变量，因为它依赖于随机抽取的训练数据集。因此，我们需要考虑 $M_{cn}$ 的随机性对MSE的影响。

MSE的条件期望分解

$\text{MSE}(M_{cn}(x)) = E[E[(Y - M_{cn}(X))^2 | X = x, M_{cn} = \hat{\mu}] | X = x] \quad \text{(1.24)}$
这里，内层的 $M_{cn}(X))^2 | X = x, M_{cn} = \hat{\mu}]$ 表示在给定 $X = x$ 和 $M_{cn}=\hat{\mu}$ 的条件下， $Y - M_{cn}(X))^2$ 的期望值。外层的 $E$ 则是对所有可能的 $M_{cn}$ 取平均。

MSE的偏差-方差分解

接下来，我们利用之前关于 $\epsilon = Y - \mu(X)$ 的假设，其中 $\epsilon$ 的方差为 $\sigma^2(x)$ ，且 $E[\epsilon] = 0$ 。将这些代入MSE的表达式中，我们得到：

$\text{MSE}(M_{cn}(x)) = E[\sigma^2(x) + (\mu(x) - M_{cn}(x))^2 | X = x] \quad \text{(1.25)}$
由于 $\sigma^2(x)$ 不依赖于 $M_{cn}$ ，因此可以将其从期望中提出来：

$\text{MSE}(M_{cn}(x)) = \sigma^2(x) + E[(\mu(x) - M_{cn}(x))^2 | X = x] \quad \text{(1.26)}$
现在，我们关注第二项 $E[(\mu(x) - M_{cn}(x))^2 | X = x]$ ，它表示由于我们使用 $M_{cn}$ 而不是真实的 $\mu$ 进行预测而产生的额外误差。为了进一步分解这项误差，我们考虑 $M_{cn}(x)$ 的均值和方差：

$E[(\mu(x) - M_{cn}(x))^2] = E[(\mu(x) - E[M_{cn}(x)] + E[M_{cn}(x)] - M_{cn}(x))^2]$
利用方差的性质，我们可以将其分解为：

$(\mu(x) - E[M_{cn}(x)])^2 + \text{Var}[M_{cn}(x)] \quad \text{(1.27)}$
将这两项代回MSE的表达式中，我们得到最终的偏差-方差分解：

$\text{MSE}(M_{cn}(x)) = \sigma^2(x) + (\mu(x) - E[M_{cn}(x)])^2 + \text{Var}[M_{cn}(x)] \quad \text{(1.28)}$

偏差-方差权衡的解释

第一项 $\sigma^2(x)$ ：这是数据本身的噪声，与我们的模型或估计方法无关。
第二项 $(\mu(x) - E[M_{cn}(x)])^2$ ：这是近似偏差或近似误差，它衡量了我们的估计函数 $M_{cn}$ 在平均意义下与真实回归函数 $\mu$ 之间的差异。
第三项 $\text{Var}[M_{cn}(x)]$ ：这是估计方差，它反映了由于我们使用有限数据集进行估计而导致的不确定性。

在偏差-方差权衡中，我们面临一个选择：降低近似偏差通常会增加估计方差，反之亦然。这是因为更复杂的模型（如包含更多参数的模型）可能能够更好地拟合训练数据（从而降低近似偏差），但它们也更容易受到数据噪声的影响（从而增加估计方差）。因此，在选择回归方法时，我们需要仔细考虑如何在偏差和方差之间做出权衡。

此外，值得注意的是，即使对于无偏的估计方法（即 (E[M_{cn}(x)] = \mu(x))），我们仍然需要关注估计方差 (Var[M_{cn}(x)]) 和数据本身的噪声 (\sigma^2(x))。在无偏性的条件下，模型的平均预测等于真实回归函数的值，但预测的精确度和稳定性则受到估计方差和数据噪声的影响。

估计方差 (Var[M_{cn}(x)])：
- 估计方差衡量了由于我们使用有限样本数据来估计模型而产生的随机性。
- 复杂的模型（如高维或非线性模型）通常具有较低的近似偏差，因为它们能够更灵活地拟合数据中的复杂模式。然而，这种灵活性也增加了模型对训练数据噪声的敏感性，从而可能导致较高的估计方差。
- 降低估计方差的一种方法是使用正则化技术，它通过在损失函数中添加一个惩罚项来限制模型的复杂度，从而避免过拟合。
数据噪声 (\sigma^2(x))：
- 数据噪声是数据固有的随机性，与模型或估计方法无关。它反映了即使使用完美的模型，我们也无法完全消除的预测误差。
- 在实际应用中，数据噪声是不可避免的，但我们可以通过收集更多高质量的数据来降低其影响。
- 数据噪声还限制了模型能够达到的最佳预测性能，因为无论模型多么复杂或精确，它都无法完全预测出数据中的随机性。

在偏差-方差权衡中，我们的目标是找到一个平衡点，使得总误差（近似偏差的平方、估计方差和数据噪声之和）最小化。这通常涉及到选择一个既能足够灵活地拟合数据中的真实模式，又不会因过度拟合训练数据噪声而导致高方差的模型。

为了实现这一目标，我们可以采用交叉验证、模型选择准则（如AIC、BIC）或贝叶斯方法来评估不同模型的性能，并选择具有最佳预测性能的模型。此外，通过调整模型的复杂度（例如，通过改变模型的参数数量或结构）和正则化强度，我们可以进一步优化模型的偏差和方差之间的权衡。

4.2 偏差-方差权衡的实际应用

在实际应用中，偏差-方差权衡是一个重要的概念。考虑一个极端例子：我们可能选择用一个常数 $\mu_0$ 来近似真实的回归函数 $\mu(x)$ 。这种隐含的平滑处理在某些情况下是非常合适的。例如，当 $\mu(x)$ 确实是一个常数时，这种近似就是完美的。此时，任何尝试去估计回归函数中不存在的额外结构都是徒劳无功的。

另一方面，即使 $\mu(x)$ 并非严格的常数，但如果它接近常数（比如 $\mu(x) = \mu_0 + a\sin(\nu x)$ ，其中 $\ll 1$ 且 $\nu \gg 1$ ），我们可能仍然可以通过将其近似为常数来获得更好的预测结果，特别是在数据有限的情况下。图1.3展示了这种情形的一个例子。

4.3 作为平滑的普通最小二乘线性回归

现在，让我们从这个角度重新审视普通最小二乘线性回归。为了简化讨论，我们假设预测变量 $X$ 是一维的。

我们选择用线性函数 $\lambda(x) = b_0 + b_1x$ 来近似真实的回归函数 $\mu(x)$ ，并寻找这些系数 $b_0$ 和 $b_1$ （或更一般地， $\beta_0$ 和 $\beta_1$ ）的最佳值。当需要讨论这个线性近似函数时，我们使用 $\lambda(x)$ 而不是 $\mu(x)$ ，以强调其近似性质。

线性函数 $\lambda(x)$ 中的系数将是最小化均方误差的那些。从基本恒等式开始：

$\text{MSE}(b_0, b_1) = E[(Y - b_0 - b_1X)^2] \quad \text{(1.29)}$
这可以进一步分解为方差项和偏差项的平方：

$\text{MSE}(b_0, b_1) = \text{Var}(Y - b_0 - b_1X) + (E[Y - b_0 - b_1X])^2 \quad \text{(1.30)}$
由于加性常数不会改变方差，因此方差项只与 $b_1$ 有关，而 $b_0$ 只影响偏差项（即期望差的平方）。进一步地，我们可以将方差项重写为：

$\text{Var}(Y - b_1X) + (E[Y] - b_0 - b_1E[X])^2 \quad \text{(1.31)}$
这个表达式清晰地展示了在最小化MSE时，我们需要在拟合数据（即减小方差项）和逼近真实回归函数（即减小偏差项）之间做出权衡。

最优线性回归模型的截距与斜率

在普通最小二乘线性回归中，我们可以直接找到最优截距 $\beta_0$ ，它出现在均方误差（MSE）表达式中唯一的平方项里，这个平方项必然 $\geq 0$ 。通过设定该平方项为零，我们可以找到最优的 $\beta_0$ 值。具体来说，使用

$\beta_0 = E[Y] - \beta_1 E[X] \quad \text{(1.32)}$
可以使平方项在最优时等于零（这也可以通过对方程1.31关于 $b_0$ 求导并设为零来得出）。

对于斜率 $\beta_1$ ，我们需要通过微分来找到其最优值。利用方差的性质

$\text{Var}(U+V) = \text{Var}(U) + \text{Var}(V) + 2\text{Cov}[U,V]$
我们可以将 $\text{Var}(Y - b_1X)$ 展开为

$\text{Var}(Y - b_1X) = \text{Var}(Y) + b_1^2\text{Var}(X) - 2b_1\text{Cov}[X,Y] \quad \text{(1.33)}$
接下来，对 $\text{Var}(Y - b_1X)$ 关于 $b_1$ 求导，得到

$\frac{\partial}{\partial b_1} \text{Var}(Y - b_1X) = 2b_1\text{Var}(X) - 2\text{Cov}[X,Y] \quad \text{(1.34)}$
然后，将这个导数代入到MSE的导数中，并设其为零以找到最优的 $b_1$ （即 $\beta_1$ ），得到

$\beta_1 = \frac{\text{Cov}[X,Y]}{\text{Var}[X]} \quad \text{(1.36)}$

最优线性预测函数

将最优的截距和斜率结合起来，我们得到最优的线性预测函数为

$\lambda(x) = E[Y] + \frac{\text{Cov}[X,Y]}{\text{Var}[X]}(x - E[X]) \quad \text{(1.37)}$
在这里，重要的是要意识到我们没有对 $\mu(x)$ 是否线性做出任何假设。方程1.37描述了在给定使用线性预测函数的条件下，唯一的最优预测函数 $\lambda(x)$ ，无论 $\lambda$ 是否等于 $\mu$ 。此外，我们也没有对 $X$ 和 $Y$ 的角色或它们的分布做出任何特定的假设，除了它们具有高斯分布（如果适用）以及噪声可能具有恒定的方差等常见假设。如果我们决定使用线性预测函数，并希望得到最好的预测效果，那么我们就应该使用方程1.37给出的函数。

最小二乘线性回归的估计方法

在统计和机器学习中，我们常常需要从数据中估计线性回归模型的参数。这至少可以通过两种主要方法来实现：直接使用样本协方差和方差来估计，或者通过最小化样本内均方误差（MSE）来估计。

第一种方法是利用样本数据直接替换总体协方差和方差的值。具体地，我们有：

$\text{Cov}_b[X, Y] = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})(x_i - \bar{x}) \quad \text{(1.38)}$
$\text{Var}_b[X] = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \quad \text{(1.39)}$
其中， $\bar{x}$ 和 $\bar{y}$ 分别是 $x$ 和 $y$ 的样本均值。

第二种方法是通过最小化样本内均方误差来估计模型参数。MSE 定义为：

$\text{MSE}_b = \frac{1}{n} \sum_{i=1}^{n} (y_i - b_0 - b_1 x_i)^2 \quad \text{(1.40)}$
通过求解使 MSE 最小的 $b_0$ 和 $b_1$ ，我们可以得到线性回归模型的最优参数。令人惊讶的是，这两种方法会得到相同的参数估计值：

$\beta_{c1} = \frac{\text{Cov}_b[X, Y]}{\text{Var}_b[X]} = \frac{\sum_{i=1}^{n} (y_i - \bar{y})(x_i - \bar{x})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \quad \text{(1.41)}$
$\beta_{c0} = \bar{y} - \beta_{c1} \bar{x} \quad \text{(1.42)}$
只要 $\text{Var}[X] > 0$ ，这些参数值会随着独立同分布（IID）样本的增加而收敛，因此我们有一个一致的估计器。

现在，我们可以更深入地理解最小二乘线性回归模型是如何对数据进行加权平均的。估计的线性预测函数可以表示为：

$\hat{\lambda}(x) = \beta_{c0} + \beta_{c1}x \quad \text{(1.44)}$
这可以进一步展开为：

$\hat{\lambda}(x) = \bar{y} + \beta_{c1}(x - \bar{x}) \quad \text{(1.45)}$
$\hat{\lambda}(x) = \frac{1}{n} \sum_{i=1}^{n} y_i + \frac{(x - \bar{x})}{\frac{n \hat{\sigma}_X^2}{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}} \quad \text{(1.46)}$
其中， $\hat{\sigma}_X^2$ 是 $X$ 的样本方差。

进一步化简，我们得到：

$\hat{\lambda}(x) = \frac{1}{n} \sum_{i=1}^{n} \left( 1 + \frac{(x - \bar{x})(x_i - \bar{x})}{\hat{\sigma}_X^2} \right) y_i \quad \text{(1.49)}$
这表明我们的预测值是观测值 $y_i$ 的加权和，其中权重与 $x_i$ 和 $x$ 都离数据中心有多远成比例（相对于 $X$ 的方差）。如果 $x_i$ 在数据中心 $\bar{x}$ 的同一侧作为 $x$ ，则它得到正权重；如果在另一侧，则得到负权重。这种加权平均的方式使得线性回归模型能够基于训练数据中的关系对新的数据点进行预测。

在图1.4中，我们将最小二乘回归线添加到了图1.1所展示的数据集中。令人惊讶的是，这条回归线与一个常数回归函数（其斜率接近于-0.046）几乎无异，仅存在微小的差异。从直观上看，这种现象的根源在于数据的左右两部分呈现出截然不同的趋势：左半部分似乎需要一个正斜率来拟合，而右半部分则更接近于负斜率。然而，由于数据的斜率和密度在全局范围内达到了某种微妙的平衡，导致最终拟合出的最佳单一斜率几乎为零。

从数学角度来看，这一问题的核心在于最小二乘线性回归在处理数据时采用的平滑方式。具体来说，该模型在最小化残差平方和的过程中，每个数据点的权重并非直接基于其距离我们试图预测的点的远近，而是取决于该点距离数据中心（即均值点）的远近。这种权重分配方式在数据真实分布为直线时效果显著，但当数据存在明显的非线性趋势或异质性时，其性能便大打折扣。

上述现象充分暴露了线性回归模型在处理复杂数据集时的局限性。当数据中的关系并非简单的线性关系时，线性回归模型往往无法准确捕捉数据的真实结构，从而导致拟合效果不佳。在本例中，尽管数据在全局范围内看似平稳，但其内部却隐藏着复杂的非线性趋势，这是线性回归模型所无法捕捉的。

面对线性回归的局限性，我们可以从以下几个方面进行改进：

采用非线性回归模型：如多项式回归、样条回归等，这些模型能够更灵活地拟合数据的非线性趋势。
分段线性回归：将数据集分割成多个子集，并对每个子集分别进行线性回归。这种方法可以捕捉数据中的局部线性趋势，从而提高整体拟合效果。
加权回归：根据数据点的特定属性（如距离预测点的远近）来调整其权重。然而，这种方法需要额外的信息或假设来确定权重的合理分配。
局部回归方法：如LOESS（局部加权散点图平滑）或KNN回归等，这些方法在预测每个点时都会考虑其周围的局部数据，从而能够更灵活地适应数据的局部变化。
机器学习算法：对于更加复杂的数据集，可以考虑使用机器学习算法（如决策树、随机森林、神经网络等）来捕捉数据中的非线性关系和交互作用。这些算法通常具有更强的学习能力和泛化能力，能够更好地适应复杂的数据环境。

综上所述，当面对具有非线性趋势的数据集时，我们可以通过调整平滑数据的方式或选择更合适的回归模型来改进预测性能。这不仅有助于提高模型的准确性，还能为我们提供更深入的数据洞察和决策支持。

5 线性平滑器

样本均值和最小二乘回归线都是线性平滑器的特殊实例。线性平滑器通过加权平均数来估计回归函数，其一般形式如下：

$\hat{\mu}(x) = \sum_i y_i w_b(x_i, x) \quad (1.50)$

这里，预测值是响应 $y_i$ 的线性组合，尽管作为 $x$ 的函数时，这些组合通常是非线性的。因此，它们被称为线性平滑器。

正如之前提到的，样本均值是线性平滑器的一个简单特例（见练习1.7）。它通过给所有观测值相同的权重来工作，忽略了 $x_i$ 与 $x$ 之间的距离。

普通线性回归是另一个重要的特例，其中权重 $w_b(x_i, x)$ 由特定的方程（如方程1.49所示）给出。然而，就像样本均值一样，普通线性回归也未能充分考虑 $x_i$ 与 $x$ 之间的空间关系。

为了克服这些局限性，我们可以探索一些不那么简单的线性平滑器。

5.1 k-最近邻回归

在忽略 $x_i$ 和 $x$ 之间距离的另一个极端，我们可以采用最近邻回归策略：

$w_b(x_i, x) = \begin{cases} 1 & \text{如果 } x_i \text{ 是 } x \text{ 的最近邻} \\ 0 & \text{否则} \end{cases} \quad (1.51)$

这种方法对 $x_i$ 和 $x$ 之间的距离非常敏感。如果回归函数 $\mu(x)$ 变化不大，并且 $X$ 的采样相当密集，则 $x$ 的最近邻 $x_i$ 处的回归值 $\mu(x_i)$ 可能接近 $\mu(x)$ 。然而，由于 $y_i = \mu(x_i) + \text{噪声}$ ，最近邻回归的预测将包含噪声。

为了减轻噪声的影响，我们可以采用 k-最近邻回归：

$w_b(x_i, x) = \begin{cases} \frac{1}{k} & \text{如果 } x_i \text{ 是 } x \text{ 的 } k \text{ 个最近邻之一} \\ 0 & \text{否则} \end{cases} \quad (1.52)$

在足够多的样本下， $x$ 的所有 $k$ 个最近邻都可能接近 $x$ ，因此这些邻居处的回归函数值将接近 $x$ 处的真实回归函数值。通过平均这些邻居的 $y_i$ 值，噪声项有望相互抵消。随着 $k$ 的增加，预测函数变得更加平滑——在极端情况下，当 $k = n$ 时，预测将简化为常数（即样本均值）。图1.5为我们的示例数据直观地展示了这一点。

要使用 k-最近邻回归，我们需要以某种方式选择 $k$ 的值，这实际上是在决定平滑的程度。这个过程并不简单，因为它涉及到对模型复杂度和泛化能力的权衡。我们将在第3章中更详细地讨论如何选择 $k$ 。

由于 k-最近邻回归仅在固定数量的邻居上进行平均，且每个邻居都是一个带有噪声的样本，因此其预测总是包含一定的噪声，并且可能不是完全一致的。对于适度大小的数据集（特别是当我们有了选择 $k$ 的好方法时），这种噪声可能不会影响预测效果太多。然而，如果我们追求更高的一致性，可能需要让 $k$ 随着样本量 $n$ 的增加而增长，但增长速度不应过快；需要确保当 $\to \infty$ 时， $\to \infty$ 且 $\to 0$ 。

5.2 核平滑器

在k-最近邻回归中，通过改变k值来调整数据的平滑程度虽然可行，但使用数据点数量作为控制平滑的参数显得不够直观。更自然的做法是使用独立变量上的一个范围来定义平滑或平均的区域。此外，k-最近邻回归的另一个局限是，每个测试点的预测仅基于少量训练数据点，而非像线性回归或样本均值那样利用所有训练数据。如果能以某种方式既使用所有训练数据又保持位置敏感性，那将是一个理想的解决方案。核平滑（也称为核回归或Nadaraya-Watson回归）正是这样一种方法，它特别有用且灵活。

首先，需要选择一个核函数 $K(x_i, x)$ ，该函数应满足以下属性：

$K(x_i, x) \geq 0$
$K(x_i, x)$ 仅依赖于 $x_i - x|$ 的距离
$\int x K(0, x) dx = 0$
$\int x^2 K(0, x) dx < \infty$

这些条件确保了核函数在 $|x_i - x| \to \infty$ 时趋向于0。常用的核函数示例包括均匀分布 $\text{Unif}(-h/2, h/2)$ 的密度函数和标准高斯分布 $\sqrt{h})$ 的密度函数。

这里的h是一个正数，称为带宽。由于 $K(x_i, x) = K(0, |x_i - x|)$ ，我们常将K写成一个参数函数，即 $K_h(|x_i - x|)$ ，其中下标h表示带宽。

Nadaraya-Watson 回归函数的估计值为：

$\hat{\mu}(x) = \frac{\sum_i y_i K_h(|x_i - x|)}{\sum_j K_h(|x_j - x|)} \quad (1.53)$

根据方程1.50的形式，权重 $w_b(x_i, x)$ 可以表示为：

$w_b(x_i, x) = \frac{K_h(|x_i - x|)}{\sum_j K_h(|x_j - x|)} \quad (1.54)$

注意，与k-最近邻回归类似，这些权重的总和总是1。这是因为所有训练点 $x_i$ 都通过核函数 $K_h$ 对预测点 $x$ 产生影响，且这些影响被归一化以确保权重之和为1。

核平滑器如何工作？当 $x_i$ 接近 $x$ 时， $K_h(|x_i - x|)$ 的值较大，因此给 $x_i$ 附近的训练数据点赋予更多权重。相反，距离较远的训练点权重较小，并逐渐趋近于零。如果试图在远离任何训练数据点的位置进行预测，对于所有 $x_i$ ， $K_h(|x_i - x|)$ 的值都将很小，但最近邻的权重仍会相对较高。因此，远离训练数据时，预测将趋向于最近邻的响应值，而非像线性回归那样可能趋于无穷大或无穷小。

图1.6展示了不同带宽下的核回归估计结果，包括使用均匀核（盒子核）和高斯核。带宽h控制平滑程度：h越大，平滑效果越明显；h越小，函数越尖锐。极端情况下，当h趋于无穷大时，预测退化为全局均值；当h趋于0时，预测趋近于最近邻回归。

为了使用核回归，我们需要选择核函数和相应的带宽。经验表明，带宽的选择通常比核函数的选择更重要。与k-最近邻回归类似，核回归也需要控制平滑程度，而真实的 $\mu(x)$ 的平滑程度往往是未知的。此外，对于固定的带宽h，核回归通常不是一致的。然而，如果h随着样本量n的增加而适当减小（但不过快），则可以实现一致性。

5.3 线性平滑器的通用理论

在统计学中，线性回归模型的一些核心理论概念可以更为广泛地应用于线性平滑器领域。尽管这些理论在特定情境下可能不占主导地位，但它们仍然具有一定的应用价值，并且为理解非参数回归提供了坚实的基础。

在本节中，我们假定数据模型为 $\mu(X) + \epsilon$ ，其中 $\mu(X)$ 是未知的真实函数， $\epsilon$ 是噪声项，具有恒定的方差 $\sigma^2$ ，并且不同观测点之间的噪声是相互独立的。此外，我们引入平滑、影响或“帽子矩阵” $\hat{W}$ ，其元素 $\hat{w}_{ij} = \hat{w}(x_i, x_j)$ 表示观测值 $y_j$ 对平滑器在 $x_i$ 处拟合值 $\hat{\mu}(x_i)$ 的影响程度。

5.3.1预测均值的标准误差

对于任何通过线性平滑器得到的预测均值 $\hat{\mu}(x)$ ，我们可以通过计算其方差来轻松获得其标准误差。具体步骤如下：

$\text{Var}[\hat{\mu}(x)] = \text{Var}\left[\sum_{j=1}^{n} w(x_j, x)Y_j\right] \quad (1.55)$

由于噪声项 $\epsilon$ 在不同观测点之间是相互独立的，我们可以将上式中的方差进行分解：

$\sum_{j=1}^{n} \text{Var}[w(x_j, x)Y_j] \quad (1.56)$

由于 $w(x_j, x)$ 是常数（对于给定的 $x_j$ 和 $x$ ），且 $\text{Var}[aY] = a^2\text{Var}[Y]$ （其中 $a$ 是常数），我们进一步得到：

$\sum_{j=1}^{n} w^2(x_j, x)\text{Var}[Y_j] \quad (1.57)$

最后，利用噪声方差恒定的假设（即 $\text{Var}[Y_j] = \sigma^2$ ），我们得到：

$\sigma^2\sum_{j=1}^{n} w^2(x_j, x) \quad (1.58)$

特别地，对于训练数据集中的点 $x_i$ ，其预测均值 $\hat{\mu}(x_i)$ 的方差为 $\sigma^2 \sum_{j} w^2_{ij}$ 。

需要明确的是，上述计算给出的是预测均值 $\hat{\mu}(x)$ 的方差，而非条件方差 $\text{Var}[Y | X = x]$ 的估计。尽管两者在概念上有所关联，但它们并不等同。我们将在后续章节中探讨如何使用非参数回归方法来估计条件方差。

此外，值得注意的是，上述推导并未要求噪声项 $\epsilon$ 遵循高斯分布。然而，如果进一步假设噪声是高斯分布的，那么上述公式还可以用于构建拟合值的置信区间（尽管在实际应用中，我们还需要考虑如何准确估计 $\sigma$ ）。

5.3.2 自由度

在线性回归模型的上下文中，“自由度”通常指的是模型中系数的数量（包括截距）。然而，在更广泛的回归模型类别中，尤其是线性平滑器领域，自由度的概念变得不那么直观，但仍然具有重要的理论意义。接下来，我们将探讨如何定义和计算这些模型中的自由度。

对于线性回归模型，假设我们有一个 $\times p$ 的预测变量数据矩阵 $\mathbf{X}$ （可能包含一列全1用于截距）和一个 $\times 1$ 的响应值向量 $\mathbf{Y}$ 。 $p$ 维系数向量 $\beta$ 的普通最小二乘估计为：

$\hat{\beta} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \quad (1.59)$
拟合值 $\hat{\mu}$ 可以表示为：

$\hat{\mu} = \mathbf{X} \hat{\beta} \quad (1.60)$
这可以进一步写为：

$\hat{\mu} = (\mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T) \mathbf{Y} \quad (1.61)$
$\hat{\mu} = \mathbf{W} \mathbf{Y} \quad (1.62)$
其中， $\mathbf{W}$ 是一个 $\times n$ 的矩阵，其元素 $w_{ij}$ 表示每个观测 $y_j$ 对每个拟合值 $\hat{\mu}_i$ 的贡献。在普通最小二乘的特定情况下， $\mathbf{W}$ 就是之前提到的影响或帽子矩阵。

自由度的几何解释:

数据自由度：原始数据 $\mathbf{Y}$ 有 $n$ 个独立的坐标，因此我们说数据有 $n$ 个自由度。
拟合值自由度：一旦 $\mathbf{X}$ （从而 $\mathbf{W}$ ）固定，拟合值 $\hat{\mu}$ 必须位于由 $\mathbf{W}$ 定义的 $n$ 维空间中的一个 $p$ 维线性子空间内。残差则位于这个子空间的正交补空间中，维度为 $n - p$ 。

从几何角度来看， $\hat{\mu} = \mathbf{W} \mathbf{y}$ 被限制的空间的维度是矩阵 $\mathbf{W}$ 的秩。由于 $\mathbf{W}$ 是幂等矩阵（练习1.5），其秩等于其迹。这个迹正是 $p$ ：

$\text{tr}(\mathbf{W}) = \text{tr}((\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T) \quad (1.63)$
$\text{tr}(\mathbf{X}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1}) \quad (1.64)$
$\text{tr}(\mathbf{I}_p) = p \quad (1.65)$
其中，对于任意矩阵 $\mathbf{a}, \mathbf{b}$ ，有 $\text{tr}(\mathbf{a}\mathbf{b}) = \text{tr}(\mathbf{b}\mathbf{a})$ ，且 $\mathbf{X}^T \mathbf{X}$ 是一个 $\times p$ 矩阵。

对于更一般的线性平滑器，我们仍然可以以矩阵形式写出拟合值的表达式（类似于方程1.50）：

$\hat{\mu} = \mathbf{W} \mathbf{y} \quad (1.66)$
在这种情况下，我们定义自由度为矩阵 $\mathbf{W}$ 的迹：

$\text{df}(\hat{\mu}) \equiv \text{tr}(\mathbf{W}) \quad (1.67)$
需要注意的是，这个自由度可能不是一个整数。它提供了一种度量，用于描述平滑器对数据的拟合程度以及拟合值的灵活性。

5.3.3 观测值和拟合值的协方差

方程 1.67 定义了线性平滑器的自由度数量，但这一概念可以推广到更通用的非线性方法。假设 $ Y_i = \mu(x_i) + \epsilon_i $，其中 $ \epsilon_i $ 是由恒定方差的不相关噪声组成的误差项。在这种情况下，自由度的广义定义（gdf）可以表示为：

$\text{gdf}(\hat{\mu}) \equiv \frac{1}{\sigma^2} \sum_{i=1}^{n} \text{Cov}[Y_i, \hat{\mu}(x_i)] \quad (1.68)$

用文字来说，这是每个观测响应 $ Y_i $ 与其对应的预测值 $ \hat{\mu}(x_i) $ 之间的归一化协方差。通过观察回归模型随着数据变化的敏感度，这种方法提供了一种非常自然的衡量回归模型灵活性或稳定性的方式。

如果我们确实在处理一个线性平滑器，那么方程 1.68 可以简化为方程 1.67 的形式。首先，我们写出协方差的表达式：

$\text{Cov}[Y_i, \hat{\mu}(x_i)] = \text{Cov}\left[Y_i, \sum_{j=1}^{n} w_{ij}Y_j\right] \quad (1.69)$

这里，我们利用了线性平滑器的性质，即拟合值 $ \hat{\mu}(x_i) $ 是观测值 $ Y_j $ 的线性组合，权重由 $ w_{ij} $ 给出。

接下来，我们应用协方差的线性性质：

$\sum_{j=1}^{n} w_{ij}\text{Cov}[Y_i, Y_j] \quad (1.70)$

由于 $ \epsilon_i $ 是不相关的且具有恒定方差 $ \sigma^2 $，因此 $ \text{Cov}[Y_i, Y_j] = 0 $ 当 $ i \neq j $，且 $ \text{Cov}[Y_i, Y_i] = \text{Var}[Y_i] = \sigma^2 $。所以，

$w_{ii}\text{Var}[Y_i] = \sigma^2 w_{ii} \quad (1.71)$

将上述结果代入广义自由度的定义中，我们得到：

$\text{gdf}(\hat{\mu}) = \frac{1}{\sigma^2} \sum_{i=1}^{n} \sigma^2 w_{ii} = \sum_{i=1}^{n} w_{ii} = \text{tr}(\mathbf{W}) = \text{df}(\hat{\mu}) \quad (1.73)$