线性回归系数的几个性质

kdaHugh

已于 2024-04-25 11:28:29 修改

阅读量2.4k

点赞数 5

分类专栏：概率统计机器学习文章标签：线性回归无偏估计方差残差最小二乘法

于 2022-07-17 22:49:52 首次发布

本文链接：https://blog.csdn.net/kdazhe/article/details/125463845

版权

概率统计同时被 2 个专栏收录

8 篇文章

订阅专栏

机器学习

7 篇文章

订阅专栏

线性回归系数的几个性质

摘要

我们知道一元和多元线性回归系数都有解析解，本文将简要介绍总结线性回归系数的几个常见的性质。

线性回归问题的描述

我们回忆一下，单变量线性回归问题是指，给定了 $n$ 个观察量 $(x_1, \, y_1), \, (x_2, \, y_2), \cdots, (x_n, y_n)$ 。我们希望用一个线性的关系 $\beta_1 x + \beta_0 + \epsilon$ 来描述这些观察量的规律。

这里，我们把方程
$\beta_1 x + \beta_0 + \epsilon$

称为 总体回归模型 (population regression model)。

而当给定的 $n$ 个观察量 $(x_1, \, y_1), \, (x_2, \, y_2), \cdots, (x_n, y_n)$ ，我们称方程
$y_i = \beta_1 x_i + \beta_0 + \epsilon_i$
为 样本回归模型（sample regression model）。
其中 $\epsilon_i$ 为误差项 (error)，每个 $\epsilon_i$ 均是一个随机变量，独立且均服从一个均值为0, 方差为 $\sigma^2$ 的概率分布。其中 $\sigma^2$ 为误差项的方差，在我们所考虑的线性模型中，我们已知 $\sigma^2$ 是固定的，但是我们不知道其具体的数值。

所以我们去做线性回归“拟合”模型的参数 $\beta_1$ 和 $\beta_0$ 时，实际上是根据 $(x_1, \, y_1), \, (x_2, \, y_2), \cdots, (x_n, y_n)$ 去做点估计 (point estimator)。

这里值得注意的是，我们把 $x_1, \, x_2, \, \cdots, \, x_n$ 当作给定的值，即可以认为是常量，而每一个 $y_i, \, i = 1, 2, \, \cdots \, n$ 均是一个随机变量。

所以， $y_i$ 作为随机变量，可以用下图来体现。

yi 随机变量

上图中， $x$ 轴上的绿色的圆点表示固定的 $x_i$ ，而橙色的直线表示真实的线性关系，而蓝色的钟型曲线代表随机变量 $y_i$ 服从的概率密度函数。

单变量线性回归系数的公式

我们回顾单变量线性回归问题的公式，有
$\begin{cases} & \hat{\beta_1} = \frac{\sum (x_i - \bar{x} ) (y_i - \bar{y})}{\sum (x_i - \bar{x} )^2 } \\ & \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x} \\ \end{cases}$

即我们对参数 $\beta_1, \, \beta_0$ 的估计是 $\displaystyle \hat{\beta_1} = \frac{\sum (x_i - \bar{x} ) (y_i - \bar{y})}{\sum (x_i - \bar{x} )^2 }$ ，对参数 $\beta_0$ 的估计是 $\displaystyle \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x}$ 。

为方便起见，我们记

$\displaystyle S_{xx} = \sum_{i = 1}^n (x_i - \bar{x})^2$ ,
$\displaystyle S_{xy} = \sum_{i = 1}^n (x_i - \bar{x}) (y_i - \bar{y})$ 。

我们可以进一步简化 $S_{xy}$ 为 $\displaystyle S_{xy} = \sum_{i = 1}^n (x_i - \bar{x}) y_i$ 。

那么我们可以将 $\hat{\beta_1}$ 与 $\hat{\beta_0}$ 写成：
$\displaystyle \hat{\beta_1} =\sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx} } \cdot y_i$ ,
$\displaystyle \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x}$ 。

回忆起之前我们提到的，每一个 $y_i, \, i = 1, 2, \, \cdots \, n$ 均是一个随机变量，这里我们分别对 $\beta_1$ 和 $\beta_0$ 的估计 $\hat{\beta_1}$ 与 $\hat{\beta_0}$ 就是 $y_i, i = 1, \, 2, \, \cdots \, n$ 的函数。

无偏估计

首先，我们证明上述估计 $\hat{\beta_1}$ 与 $\hat{\beta_0}$ 是无偏估计 (unbiased)。

要证明我们的估计是无偏估计，我们须要证明我们估计的期望恒等于所估计的参数，即我们须要证明：
$\begin{cases} & \mathbb{E}[ \hat{\beta_1} ] = \beta_1 \\ \\ & \mathbb{E}[ \hat{\beta_0} ] = \beta_0 \\ \end{cases}$

证明过程十分直接，我们直接将上一节的表达式代入。

$\displaystyle \mathbb{E}[ \hat{\beta_1} ] =\mathbb{E} \Big[ \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx} } \cdot y_i \Big]$ ，注意到 $y_i = \beta_1 x_i + \beta_0 + \epsilon_i$ ，我们有 $\displaystyle \mathbb{E}(y_i) = \beta_1 x_i + \beta_0$ 。这里我们用到了 $\displaystyle \mathbb{E} [ \epsilon_i ] = 0$ 。

代入，我们有

$\begin{aligned} \displaystyle \mathbb{E} [\hat{\beta_1}] &= \mathbb{E} \Big[ \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx} } \cdot y_i \Big] \\ &= \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx}} \mathbb{E} [y_i] \\ &= \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx} } \cdot (\beta_1 x_i + \beta_0) \\ &= \beta_1 \cdot \Big[ \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx}} \cdot x_i \Big] + \beta_0 \cdot \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx}} \\ &= \beta_1 \end{aligned}$ 。

注意，上式中，我们用到了 $\displaystyle \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx}} = 0$ ，以及 $\displaystyle \sum_{i = 1}^n (x_i - \bar{x}) \cdot x_i = S_{xx}$ 。

同样的，我们有，
$\begin{aligned} \displaystyle \mathbb{E} (\hat{\beta_0}) &= \mathbb{E} \big[ \bar{y} - \bar{x} \cdot \hat{\beta_1} \big] \\ &= \frac{1}{n} \sum_{i = 1}^n (\beta_0 + \beta_1 \cdot x_i) - \bar{x} \cdot \beta_1 \\ &= \beta_0 \end{aligned}$ 。

所以， $\hat{\beta_0}$ 也是 $\beta_0$ 的无偏估计。

线性回归系数的方差

下面我们来看线性回归系数 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 的方差。直观上看，当误差项的方差 $\sigma^2$ 越大时， $\displaystyle \mathrm{Var}( \hat{\beta_1} )$ 与 $\displaystyle \mathrm{Var}( \hat{\beta_0} )$ 也应该越大。因为误差项的方差越大，随机变量 $y_i$ 的取值就会越不确定，从而使得线性拟合的直线不确定性越大。

具体地，我们有
$\displaystyle \mathrm{Var}( \hat{\beta_1} ) = \frac{ \sigma^2 }{S_{xx}}$ ,
$\displaystyle \mathrm{Var}( \hat{\beta_0} ) = \sigma^2 \left( \frac{ 1 }{ n } + \frac{ \bar{x}^2 }{S_{xx}} \right)$ 。

对于 $\hat{\beta_1}$ ，我们可以直接计算如下，
因为 $\displaystyle \hat{\beta_1} =\sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx} } \cdot y_i$ , 我们记 $\displaystyle c_i = \frac{ (x_i - \bar{x} ) }{S_{xx} }$ 。于是，

$\begin{aligned} \displaystyle \mathrm{Var}( \hat{\beta_1} ) &= \sum_{i = 1}^n \left( c_i^2 \cdot \mathrm{Var}( y_i ) \right) = \sum_{i = 1}^n \frac{ (x_i - \bar{x} )^2 }{S_{xx}^2 } \cdot \mathrm{Var}( y_i ) \\ &= \frac{\sigma^2}{S_{xx}^2} \sum_{i = 1}^n (x_i - \bar{x} )^2 = \frac{\sigma^2}{S_{xx}}。 \end{aligned}$

下面我们来看 $\displaystyle \mathrm{Var}( \hat{\beta_0} )$ 。

因为 $\displaystyle \hat{\beta_0} = \bar{y} - \bar{x} \cdot \hat{\beta_1}$ ，我们有 $\displaystyle \mathrm{Var}( \hat{\beta_0} ) = \mathrm{Var} (\bar{y}) + \mathrm{Var} ( \bar{x} \cdot \hat{\beta_1}) - 2 \mathrm{Cov} (\bar{y}, \bar{x} \cdot \hat{\beta_1})$ 。

我们知道， $\displaystyle \mathrm{Var} (\bar{y}) = \frac{1}{n^2} \sum_{i=1}^n \mathrm{Var} (y_i) = \frac{1}{n^2} \sum_{i=1}^n \mathrm{Var} (\epsilon_i) = \frac{\sigma^2}{n}$ 。
而 $\displaystyle \mathrm{Var} (\bar{x} \cdot \hat{\beta_1}) = \bar{x}^2 \cdot \mathrm{Var}(\hat{\beta_1}) = \bar{x}^2 \cdot \frac{\sigma^2}{S_{xx}}$ 。
下面我们来看协方差项 $\displaystyle \mathrm{Cov} (\bar{y}, \bar{x} \cdot \hat{\beta_1}) = \bar{x} \cdot \mathrm{Cov}(\bar{y}, \hat{\beta_1})$ 。

$\begin{aligned} \displaystyle \mathrm{Cov}(\bar{y}, \hat{\beta_1} ) &= \mathrm{Cov} \Big( \frac{1}{n} \sum_{i=1}^n y_i, \sum_{i=1}^n \frac{x_i - \bar{x}}{S_{xx}} y_i \Big) \\ &= \frac{1}{n} \sum_{i=1}^n \mathrm{Cov} \Big( y_i, \frac{x_i - \bar{x}}{S_{xx}} y_i \Big) \\ &= \frac{1}{n} \sum_{i=1}^n \frac{x_i - \bar{x}}{S_{xx}} \cdot \sigma^2 \\ &= \frac{\sigma^2}{n} \frac{x_i - \bar{x}}{S_{xx}} = 0。 \end{aligned}$
于是，我们有，

$\displaystyle \mathrm{Var}( \hat{\beta_0} ) = \mathrm{Var} (\bar{y}) + \mathrm{Var} ( \bar{x} \cdot \hat{\beta_1}) - 2 \mathrm{Cov} (\bar{y}, \bar{x} \cdot \hat{\beta_1}) = \frac{\sigma^2}{n} + \bar{x}^2 \cdot \frac{\sigma^2}{S_{xx}} = \sigma^2 \left( \frac{ 1 }{ n } + \frac{ \bar{x}^2 }{S_{xx}} \right)$ 。

其余的几个性质

残差项之和为0

我们记残差项为 $e_i$ ， $\displaystyle e_i = y_i - \hat{y_i}$ 。即 $\displaystyle \sum_{i = 1}^n (y_i - \hat{y_i}) = 0$ 。

这里我们可以用求 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 的公式来证明。

在文章单变量线性回归的最小二乘法公式中，我们提到在用偏导数求 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 时，我们有 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 的表达式如下：

$\displaystyle \begin{cases} &\displaystyle \frac{\partial \text{ RSS}}{\partial \beta_0} = 2 n \beta_0 + 2 \sum_{i = 1}^n x_i \beta_1 - 2 \sum_{i = 1}^n y_i = 0 \\ \\ &\displaystyle \frac{\partial \text{ RSS}}{\partial \beta_1} = 2 \sum_{i = 1}^n x_i^2 \beta_1 + 2 \sum_{i = 1}^n x_i \beta_0 - 2 \sum_{i = 1}^n x_i y_i = 0 \\ \end{cases}$

根据第一个式子，我们把 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 代入，我们有

$\displaystyle n \hat{\beta_0} + \sum_{i = 1}^n x_i \hat{\beta_1} - \sum_{i = 1}^n y_i = 0$ 。
即， $\displaystyle \sum_{i = 1}^n \left( \hat{\beta_0} + x_i \hat{\beta_1} \right) - \sum_{i = 1}^n y_i = 0$ ，亦 $\displaystyle \sum_{i = 1}^n (y_i - \hat{y_i}) = 0$ 。

线性拟合直线总会经过 $(\bar{x}, \bar{y})$ 这个点

拟合直线为 $\displaystyle y = \hat{\beta_0} + \hat{\beta_1} \cdot x$ 。而我们有
$\displaystyle \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x}$ ，所以线性拟合直线总会经过 $(\bar{x}, \bar{y})$ 这个点。

在 $x_i$ 权重下，残差和为0，即 $\displaystyle \sum_{i = 1}^n x_i e_i = 0$

我们可以直接把 $e_i = y_i - \hat{y_i}$ 代入。注意到 $\displaystyle \hat{y_i} = \hat{\beta_0} + \hat{\beta_1} \cdot x_i$ ，我们有

$\begin{aligned} \displaystyle \sum_{i = 1}^n x_i e_i &= \sum_{i = 1}^n x_i \cdot (y_i - \hat{y_i}) = \sum_{i = 1}^n x_i \cdot (y_i - \hat{\beta_0} - \hat{\beta_1} \cdot x_i) \\ &= \sum_{i = 1}^n x_i y_i - \hat{\beta_0} \sum_{i = 1}^n x_i - \hat{\beta_1} \sum_{i = 1}^n x_i^2 \\ &= \sum_{i = 1}^n x_i y_i - \hat{\beta_1} \sum_{i = 1}^n x_i^2 - (\bar{y} - \hat{\beta_1} \cdot \bar{x} ) \cdot \sum_{i = 1}^n x_i \\ &= \sum_{i = 1}^n x_i y_i - \hat{\beta_1} \sum_{i = 1}^n x_i^2 - n \bar{x} \bar{y} + n \hat{\beta_1} \bar{x}^2 \\ &= \left( \sum_{i = 1}^n x_i y_i - n \bar{x} \bar{y} \right) - \left(\sum_{i = 1}^n x_i^2 - n \bar{x}^2 \right) \hat{\beta_1} \\ &= S_{xy} - S_{xx} \hat{\beta_1} \\ &= 0 \end{aligned}$

故得证。

在 $\hat{y_i}$ 权重下，残差和为0，即 $\displaystyle \sum_{i = 1}^n \hat{y_i} e_i = 0$

这里我们只须要利用上一个公式，即 $\displaystyle \sum_{i = 1}^n x_i e_i = 0$ 即可。

因为我们有 $\displaystyle \sum_{i = 1}^n \hat{y_i} e_i = \sum_{i = 1}^n \big(\hat{\beta_0} + \hat{\beta_1} \cdot x_i \big) e_i = \hat{\beta_0} \sum_{i = 1}^n e_i + \hat{\beta_1} \sum_{i = 1}^n x_i e_i = 0$ 。

模拟

最后我们用 python 程序来模拟“证明” $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 分别时 $\beta_1$ 和 $\beta_0$ 的无偏估计。

class unbiased_beta:
    
    def __init__(self, arr_x: np.array, beta1: float, beta0: float, epsilon: float):
        #self.N = N
        self.X = arr_x
        self.beta1 = beta1
        self.beta0 = beta0
        self.epsilon = epsilon
        
        self.Sxx = ((self.X - self.X.mean()) ** 2).sum()
        self.X_bar = self.X.mean()
        
    def estimate_beta(self, N: int) -> tuple:
        res_beta1, res_beta0 = [], []
        for i in range(N):
            #print(i)
            cur_error = np.random.normal(0, self.epsilon, arr_x.shape)
            cur_y = self.beta0 + self.beta1 * self.X + cur_error
            cur_y_bar = cur_y.mean()
            Sxy = ((self.X - self.X.mean()) * (cur_y - cur_y_bar)).sum()
            cur_beta1 = Sxy / self.Sxx
            cur_beta0 = cur_y_bar - cur_beta1 * self.X_bar
            res_beta1.append(cur_beta1)
            res_beta0.append(cur_beta0)
        return np.mean(res_beta1), np.mean(res_beta0)

arr_x = np.array(range(1, 11))
a = unbiased_beta(arr_x, 2, 3, 1)
res = a.estimate_beta(10 ** 5)

res

(1.9988026861047237, 3.0029188805679303)

可以发现，在经过多次的实验之后，我们得到的 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 的平均值是非常接近真实值 $\beta_1$ 和 $\beta_0$ 的。

plt.figure(figsize=(8, 6), dpi=100)
plt.hist(res[0], bins=50, density=True);
line_vert = [[2, c] for c in np.linspace(0, 4, 100)]
plt.plot([c[0] for c in line_vert], [c[1] for c in line_vert], '-', linewidth=4)
plt.xlabel("estimated beta1 value", fontsize=20)
plt.ylabel("count", fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)

对 beta1 的估计值的统计

多元线性回归的系数也是无偏估计

上文中我们介绍了单变量线性回归中， $\hat{\beta_1}$ 与 $\hat{\beta_0}$ 是 $\beta_1$ 与 $\beta_0$ 的无偏估计 (unbiased) 。下面我们来看多变量线性回归中系数估计的无偏性质。

根据多变量线性回归的 normal equation，我们有

$\displaystyle \mathbf{\hat{\beta}} = (X^TX)^{-1}X^T \mathbf{y}$ 。

注意到， $\displaystyle \mathbf{y}= X \mathbf{\beta} + \mathbf{\epsilon}$ 。
代入 $\displaystyle \mathbf{\hat{\beta}}$ 的表达式，我们有

$\begin{aligned} \mathbb{E} [ \mathbf{\hat{\beta}} ] &= \mathbb{E} \big[ (X^TX)^{-1}X^T \mathbf{y} \big] = \mathbb{E} \big[ (X^TX)^{-1}X^T ( X \mathbf{\beta} + \mathbf{\epsilon} ) \big] \\ &= \mathbb{E} \big[ (X^TX)^{-1} X^T X \mathbf{\beta} \big] + \mathbb{E} \big[ (X^TX)^{-1} X^T \mathbf{\epsilon} \big] \\ &= \mathbf{\beta} \end{aligned}$ 。

于是，我们知道，对于多元线性回归， $\displaystyle \mathbf{\hat{\beta}}$ 也是 $\mathbf{\beta}$ 的无偏估计。

我们用程序验证如下。

class unbiased_beta_mv:
    
    def __init__(self, arr_x: np.array, beta: np.array, epsilon: float):
        #self.N = N
        self.X = arr_x
        self.beta = beta
        self.epsilon = epsilon
        
    def estimate_beta(self, N: int) -> tuple:
        res_beta = []
        for i in range(N):
            #print(i)
            cur_error = np.random.normal(0, self.epsilon, arr_x.shape[0])
            cur_y = self.X @ self.beta + cur_error.reshape((-1, 1))
            cur_beta_hat = np.linalg.inv(self.X.T @ self.X) @ self.X.T @ cur_y
            res_beta.append(cur_beta_hat)
        return np.hstack(res_beta)

beta = np.array([[1], [2], [3], [4]])
arr_x = np.random.normal(0, 1, (10, 3))
arr_x = np.hstack((np.ones((10, 1)), arr_x))

a = unbiased_beta_mv(arr_x, beta, 1)

res = a.estimate_beta(10 ** 5)

np.mean(res, axis=1)

array([1.00255519, 1.99960968, 2.99919333, 4.00008326])

参考文献

[1] Introduction to linear regression analysis, Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining, John Wiley & Sons (2021)

线性回归系数的几个性质

线性回归系数的几个性质

摘要

线性回归问题的描述

单变量线性回归系数的公式

无偏估计

线性回归系数的方差

其余的几个性质

残差项之和为0

线性拟合直线总会经过 ( x ˉ , y ˉ ) (\bar{x}, \bar{y}) (xˉ,yˉ​) 这个点

在 x i x_i xi​ 权重下，残差和为0，即 ∑ i = 1 n x i e i = 0 \displaystyle \sum_{i = 1}^n x_i e_i = 0 i=1∑n​xi​ei​=0

在 y i ^ \hat{y_i} yi​^​ 权重下，残差和为0，即 ∑ i = 1 n y i ^ e i = 0 \displaystyle \sum_{i = 1}^n \hat{y_i} e_i = 0 i=1∑n​yi​^​ei​=0

模拟

多元线性回归的系数也是无偏估计

参考文献

线性拟合直线总会经过 $(\bar{x}, \bar{y})$ 这个点

在 $x_i$ 权重下，残差和为0，即 $\displaystyle \sum_{i = 1}^n x_i e_i = 0$

在 $\hat{y_i}$ 权重下，残差和为0，即 $\displaystyle \sum_{i = 1}^n \hat{y_i} e_i = 0$