线性回归误差项方差的估计

kdaHugh

已于 2022-10-26 21:51:06 修改

阅读量8.8k

点赞数 6

分类专栏：机器学习概率统计算法文章标签：线性回归机器学习算法

于 2022-10-23 22:13:47 首次发布

本文链接：https://blog.csdn.net/kdazhe/article/details/126091215

版权

概率统计同时被 3 个专栏收录

8 篇文章

订阅专栏

机器学习

7 篇文章

订阅专栏

算法

3 篇文章

订阅专栏

本文介绍了线性回归模型中误差项方差的估计方法，通过残差平方和(residual sum of squares, SSRes)的概念，详细推导了SSRes与误差项方差的关系，并证明了(n-2)SSRes/σ²是σ²的无偏估计。此外，还提供了实验验证来展示该估计的合理性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线性回归误差项方差的估计

摘要

之前在文章线性回归系数的几个性质中，我们证明了线性回归系数项的几个性质。在这篇短文中，我们介绍线性回归模型中误差项方差的估计。

线性回归误差项概念的回顾

我们先来回忆一下什么是线性回归的误差项。在文章线性回归系数的几个性质中，我们指出，对于单变量的线性回归模型， $y_i = \beta_1 x_i + \beta_0 + \epsilon_i, \, i = 1, \, 2, \, \cdots, n$ ，
其中 $\epsilon_i$ 为误差项 (error)，每个 $\epsilon_i$ 均是一个随机变量，独立且都服从一个均值为0, 方差为 $\sigma^2$ 的概率分布。这篇短文介绍的就是对这个 $\sigma^2$ 的估计。

残差平方和 (residual sum of squares)

我们定义 $\displaystyle SS_{\mathrm{Res}} = \sum_{i = 1}^n e_i^2 = \sum_{i = 1}^n (y_i - \hat{y_i})^2$ 。

首先，我们证明，
$SS_{\mathrm{Res}} = \sum_{i = 1}^n y_i^2 -n \bar{y}^2 - \hat{\beta_1} S_{xy}$ 。

我们把 $\displaystyle \hat{y_i} = \hat{\beta_0} + \hat{\beta_1} \cdot x_i$ 代入 $\displaystyle SS_{\mathrm{Res}}$ 的表达式。

我们有，

$\begin{aligned} \displaystyle SS_{\mathrm{Res}} &= \sum_{i = 1}^n (y_i - \hat{y_i})^2 = \sum_{i = 1}^n \big(y_i - (\hat{\beta_0} + \hat{\beta_1} \cdot x_i) \big)^2 \\ &= \sum_{i = 1}^n y_i^2 - 2 \sum_{i = 1}^n y_i (\hat{\beta_0} + \hat{\beta_1} \cdot x_i) + \sum_{i = 1}^n (\hat{\beta_0} + \hat{\beta_1} \cdot x_i)^2 \\ &= \sum_{i = 1}^n y_i^2 - 2 \hat{\beta_0} \cdot n \bar{y} - 2 \hat{\beta_1} \sum_{i = 1}^n x_i y_i + n \hat{\beta_0}^2 + 2 \hat{\beta_0} \hat{\beta_1} \sum_{i = 1}^n x_i + \hat{\beta_1}^2 \sum_{i = 1}^n x_i^2 \\ &= \sum_{i = 1}^n y_i^2 - 2 (\bar{y} - \hat{\beta_1} \bar{x}) n \bar{y} - 2 \hat{\beta_1} \sum_{i = 1}^n x_i y_i + n (\bar{y} - \hat{\beta_1} \bar{x})^2 + 2 (\bar{y} - \hat{\beta_1} \bar{x}) \hat{\beta_1} \sum_{i = 1}^n x_i + \hat{\beta_1}^2 \sum_{i = 1}^n x_i^2 \\ &= \sum_{i = 1}^n y_i^2 - 2 n \bar{y}^2 + 2n \hat{\beta_1} \bar{x} \bar{y} - 2 \hat{\beta_1} \sum_{i = 1}^n x_i y_i + n \bar{y}^2 - 2n \hat{\beta_1} \bar{x} \bar{y} + \\ & \hspace{5mm} n \hat{\beta_1}^2 \bar{x}^2 + 2 \bar{y} \hat{\beta_1} \sum_{i = 1}^n x_i - 2 \hat{\beta_1}^2 \bar{x} \sum_{i = 1}^n x_i + \hat{\beta_1}^2 \sum_{i = 1}^n x_i^2 \\ &= \sum_{i = 1}^n y_i^2 - n \bar{y}^2 - n \hat{\beta_1}^2 \bar{x}^2 + \hat{\beta_1}^2 \sum_{i = 1}^n x_i^2 - 2 \hat{\beta_1} \sum_{i = 1}^n x_i y_i + 2n \hat{\beta_1} \bar{x} \bar{y} \\ &= \sum_{i = 1}^n y_i^2 - n \bar{y}^2 + \hat{\beta_1}^2 \big( \sum_{i = 1}^n x_i^2 - n \bar{x}^2 \big) - 2 \hat{\beta_1} \big( \sum_{i = 1}^n x_i y_i - n \bar{x} \bar{y} \big) \\ &= \sum_{i = 1}^n y_i^2 - n \bar{y}^2 + \hat{\beta_1}^2 S_{xx} - 2 \hat{\beta_1} S_{xy} \\ &= \sum_{i = 1}^n y_i^2 - n \bar{y}^2 + \hat{\beta_1} \left( \frac{S_{xy} }{ S_{xx} } \right) S_{xx} - 2 \hat{\beta_1} S_{xy} \\ &= \sum_{i = 1}^n y_i^2 -n \bar{y}^2 - \hat{\beta_1} S_{xy} \end{aligned}$

于是，我们就证明了 $SS_{\mathrm{Res}} = \sum_{i = 1}^n y_i^2 -n \bar{y}^2 - \hat{\beta_1} S_{xy}$ 。

残差平方和的期望

下面我们来看残差平方和的期望，即 $\displaystyle \mathbb{E} [ SS_{\mathrm{Res}} ]$ 。

$\displaystyle \mathbb{E} [ SS_{\mathrm{Res}} ] = \mathbb{E} \big[ \sum_{i = 1}^n y_i^2 \big] - n \mathbb{E} \big[ \bar{y}^2 \big] - \mathbb{E} \big[ \hat{\beta_1} S_{xy} \big]$ 。

我们分项来求。

我们先来求 $\displaystyle \mathbb{E} \big[ \sum_{i = 1}^n y_i^2 \big]$ 。我们知道，
$\displaystyle \mathbb{E} \big[ y_i \big] = \mathbb{E} \big[ \beta_1 x_i + \beta_0 + \epsilon_i \big] = \beta_1 x_i + \beta_0$ 。注意这里我们用到了 $\displaystyle \mathbb{E} \big[ \epsilon_i \big] = 0$ 。
而 $\displaystyle \mathrm{Var} \big[ \epsilon_i \big] = \sigma^2$ 。于是，我们知道 $\displaystyle \mathrm{Var} \big[ y_i \big] = \sigma^2$ 。从而， $\displaystyle \mathbb{E} \big[ y_i^2 \big] = \mathrm{Var} \big[ y_i \big] + (\mathbb{E} \big[ y_i \big])^2 = (\beta_1 x_i + \beta_0)^2 + \sigma^2$ 。 $\displaystyle \mathbb{E} \big[ \sum_{i = 1}^n y_i^2 \big] = \sum_{i = 1}^n \big( (\beta_1 x_i + \beta_0)^2 + \sigma^2 \big) = \sum_{i = 1}^n (\beta_1 x_i + \beta_0)^2 + n \sigma^2$ 。

对于 $\displaystyle \mathbb{E} \big[ \bar{y}^2 \big]$ ，我们采用一样的方法。因为 $\displaystyle \mathbb{E} \big[ \bar{y} \big] = \frac{1}{n} \sum_{i = 1}^n (\beta_1 x_i + \beta_0) = \beta_0 + \beta_1 \bar{x}$ 。 $\displaystyle \mathrm{Var} \big[ \bar{y} \big] = \frac{1}{n^2} \sum_{i = 1}^n \mathrm{Var} \big[ y_i \big] = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n}$ 。
于是， $\displaystyle \mathbb{E} \big[ \bar{y}^2 \big] = \mathrm{Var} \big[ \bar{y} \big] + \big( \mathbb{E} \big[ \bar{y} \big] \big)^2 =\frac{\sigma^2}{n} + ( \beta_0 + \beta_1 \bar{x} )^2$ 。

对于最后一项， $\mathbb{E} \big[ \hat{\beta_1} S_{xy} \big]$ ，因为 $\displaystyle \hat{\beta_1} = \frac{S_{xy} }{ S_{xx} }$ ，而 $S_{xx}$ 是常数，所以我们须要求 $\displaystyle \mathbb{E} \big[ S_{xy}^2 \big]$ 。
注意到， $\displaystyle S_{xy} = \sum_{i = 1}^n (x_i - \bar{x}) (y_i - \bar{y}) =\sum_{i = 1}^n (x_i - \bar{x}) y_i$ 。

我们有 $\displaystyle \mathbb{E} \big[ \sum_{i = 1}^n (x_i - \bar{x}) y_i \big] = \sum_{i = 1}^n (x_i - \bar{x}) \cdot \mathbb{E} \big[ y_i \big] = \sum_{i = 1}^n (x_i - \bar{x}) (\beta_0 + \beta_1 x_i)$ 。
另外， $\displaystyle \mathrm{Var} \big[ \sum_{i = 1}^n (x_i - \bar{x}) y_i \big] = \sum_{i = 1}^n (x_i - \bar{x})^2 \cdot \mathrm{Var} \big[ y_i \big] = \sum_{i = 1}^n (x_i - \bar{x})^2 \sigma^2$ 。这里我们用到了 $y_i, \, i = 1, \, 2, \, \cdots n$ 是非相关的 (uncorrelated)。
从而，
$\begin{aligned} \displaystyle \mathbb{E} \big[ S_{xy}^2 \big] &= \mathbb{E} \big[ \big( \sum_{i = 1}^n (x_i - \bar{x}) y_i \big)^2 \big] \\ &= \mathrm{Var} \big[ \sum_{i = 1}^n (x_i - \bar{x}) y_i \big] + \left( \mathbb{E} \big[ \sum_{i = 1}^n (x_i - \bar{x}) y_i \big] \right)^2 \\ &= \sum_{i = 1}^n (x_i - \bar{x})^2 \sigma^2 + \left( \sum_{i = 1}^n (x_i - \bar{x}) (\beta_0 + \beta_1 x_i) \right)^2 \\ &= S_{xx} \sigma^2 + \left( \sum_{i = 1}^n \beta_1 x_i (x_i - \bar{x}) \right)^2 \\ &= S_{xx} \sigma^2 + \beta_1^2 S_{xx}^2 \end{aligned}$

从而， $\displaystyle \mathbb{E} \big[ \hat{\beta_1} S_{xy} \big] = \frac{ S_{xx} \sigma^2 + \beta_1^2 S_{xx}^2 }{ S_{xx}} = \sigma^2 + \beta_1^2 S_{xx}$ 。

我们把， $\displaystyle \mathbb{E} \big[ \sum_{i = 1}^n y_i^2 \big], \, \mathbb{E} \big[ \bar{y}^2 \big], \, \big[ S_{xy}^2 \big]$ 这三项代入 $\displaystyle \mathbb{E} [ SS_{\mathrm{Res}} ] = \mathbb{E} \big[ \sum_{i = 1}^n y_i^2 \big] - n \mathbb{E} \big[ \bar{y}^2 \big] - \mathbb{E} \big[ \hat{\beta_1} S_{xy} \big]$ 。
我们有
$\begin{aligned} \displaystyle \mathbb{E} [ SS_{\mathrm{Res}} ] &= \mathbb{E} \big[ \sum_{i = 1}^n y_i^2 \big] - n \mathbb{E} \big[ \bar{y}^2 \big] - \mathbb{E} \big[ \hat{\beta_1} S_{xy} \big] \\ &= \sum_{i = 1}^n (\beta_1 x_i + \beta_0)^2 + n \sigma^2 - n \left( \frac{\sigma^2}{n} + ( \beta_0 + \beta_1 \bar{x} )^2 \right) - ( \sigma^2 + \beta_1^2 S_{xx} ) \\ &= (n - 2) \sigma^2 \end{aligned}$

也就是说， $\displaystyle \frac{ SS_{\mathrm{Res}} }{n - 2}$ 是 $\sigma^2$ 的一个无偏估计。

实验验证

class sigmasqu_estimation:
    
    def __init__(self, arr_x: np.array, beta1: float, beta0: float, epsilon: float):
        #self.N = N
        self.X = arr_x
        self.beta1 = beta1
        self.beta0 = beta0
        self.epsilon = epsilon
        
        self.Sxx = ((self.X - self.X.mean()) ** 2).sum()
        self.X_bar = self.X.mean()
        
    def estimate_sigmasqu(self, N: int) -> tuple:
        res_sigmasqu_esti = []
        for i in range(N):
            #print(i)
            cur_error = np.random.normal(0, self.epsilon, arr_x.shape)
            cur_y = self.beta0 + self.beta1 * self.X + cur_error
            cur_y_bar = cur_y.mean()
            Sxy = ((self.X - self.X.mean()) * (cur_y - cur_y_bar)).sum()
            cur_beta1 = Sxy / self.Sxx
            cur_beta0 = cur_y_bar - cur_beta1 * self.X_bar
            cur_y_hat = cur_beta1 * self.X + cur_beta0 
            SS_res = ((cur_y - cur_y_hat) ** 2).sum()
            res_sigmasqu_esti.append(SS_res / (self.X.shape[0] - 2))
        return np.array(res_sigmasqu_esti)

arr_x = np.array(range(1, 11))
a = sigmasqu_estimation(arr_x, 2, 3, 1)
res = a.estimate_sigmasqu(10 ** 5)

res
np.mean(res)

1.0004110047596488

我们发现， $\displaystyle \frac{ SS_{\mathrm{Res}} }{n - 2}$ 的均值非常接近 $\sigma^2$

事实上， $\displaystyle (n - 2) SS_{\mathrm{Res}} / \sigma^2$ 服从的是 $\chi^2_{n - 2}$ 的分布 [1]。

plt.figure(figsize=(8, 6), dpi=100)
plt.hist(res, bins=50, density=True);
line_vert = [[1, c] for c in np.linspace(0, 1, 100)]
plt.plot([c[0] for c in line_vert], [c[1] for c in line_vert], '-', linewidth=4)
plt.xlabel("estimated $\sigma^2$ value", fontsize=20)
plt.ylabel("count", fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20);