最小二乘估计矩阵形式的推导_截尾二乘估计矩阵形式-CSDN博客

本文链接：https://blog.csdn.net/qq_44638724/article/details/105035071

本文详细介绍了最小二乘估计法在多元线性回归模型中的应用，通过矩阵形式简化了复杂的计算过程，最终推导出了正规方程及回归系数的估计公式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最小二乘估计矩阵形式的推导

最近写文章有用到一些算法，自己推一下，顺便mark下来。
这么久我才发现csdn居然都能写Tex了(666)。

考虑一般线性回归模型(OLR)

考虑只含有一个指标的一般线性回归模型(ordinary linear regression model)有如下形式：
$y_i=\beta_0+\beta_1x_{i1}+\epsilon，i=1,2,\dots,n$
显然这是基于 $n$ 个观测数据或者叫样本的模型形式。其中 $\beta_0$ 称为截距项系数， $\beta_1$ 称为 $x_1$ 的回归系数，它们都是未知的常值参数。 $\epsilon$ 是不能被观测到的随机误差项，并且满足 $E(\epsilon)=0$ , $\mathrm{Var(\epsilon)}=\sigma^2>0$ 。其实是有 $x_0$ 的,只是通常认为 $x_0=1$ 。还有一个关键的假设就是 $x$ 不是随机变量( $x$ 要都随机了,这模型就没法玩了)。

实际上我们所研究的问题往往包含多个指标。那么这些指标 $x_1,x_2,...,x_p)$ 就对对应 $(\beta_0,\beta_1,...,\beta_p)$ 个回归系数，这个时候模型的形式就变成了多元线性回归模型：
$y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\epsilon_i ， i=1,2,\dots,n$
所以为了简化计算和书写方便，我们可以把它写成矩阵的形式：
$Y=X\boldsymbol{\beta}+\boldsymbol{\epsilon}$

$Y=\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \\ \end{bmatrix} X=\begin{bmatrix} 1 & x_{11} & \cdots & x_{1p} \\ 1 & x_{21} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots &\vdots \\ 1 & x_{n1} & \cdots & x_{np} \\ \end{bmatrix} \boldsymbol{\beta}=\begin{bmatrix} \beta_0\\ \beta_1\\ \vdots\\ \beta_p\\ \end{bmatrix} \boldsymbol{\varepsilon}=\begin{bmatrix} \varepsilon_1\\ \varepsilon_2\\ \vdots\\ \varepsilon_n\\ \end{bmatrix}$
其中 $X$ 称为设计矩阵(只是习惯叫法)， $Y$ 就不多说了。同样也有一些前提： $X$ 必须是列满秩；随机误差向量 $\boldsymbol{\varepsilon}$ 要满足高斯-马尔科夫条件(1829年，高斯提供了最小二乘法的优化效果强于其他方法的证明，因此被称为高斯-马尔可夫定理)：
(i) $E(\boldsymbol{\varepsilon})=0$
(ii) $\mathrm{Var(\boldsymbol{\varepsilon)}}=\sigma^2\boldsymbol{I}$

最小二乘估计

最小二乘估计法 $(L S E)$ ，它和机器学习领域的梯度下降法还是有一定的区别的(后者没有这么多假设，实用性更广泛)，准确的来讲 $L E S$ 只是一种算法，因为随机误差向量 $\boldsymbol{\epsilon}$ 并不能被观测，所以回归方程不存在解，我们只能尽可能的去接近真实值从而解出全局最优解，即确定一个 $\hat{\boldsymbol{\beta}}$ 使得 $\boldsymbol{\varepsilon}=Y-X\boldsymbol{\beta}$ 各元素的平方和达到最小，可以记为：
$\begin{aligned} Q(\boldsymbol{\beta}) &=\sum_{i=1}^n\varepsilon_i^2\\ &=\boldsymbol{\varepsilon}^T\boldsymbol{\varepsilon}\\ &=(Y-X\boldsymbol{\beta})^T(Y-X\boldsymbol{\beta})\\ &=(Y^TY-2\boldsymbol{\beta}^TX^TY+\boldsymbol{\beta}^TX^TX\boldsymbol{\beta}) \end{aligned}$

令：
$\frac{\partial{Q(\boldsymbol{\beta})}}{\partial\beta}=-2X^TY+2X^TX\boldsymbol{\beta}=0$
这里需要一些矩阵求导的概念，接下来我们就可以得到一个叫做正规方程 的东西：
$X^TX\boldsymbol{\beta}=X^TY$
由 $\mathrm{rank}(X^TX)=\mathrm{rank}(X)=p+1$ 知 $X^TX$ 是正定矩阵，所以 $X^X$ 存在逆矩阵，那么正规方法就有唯一解了：
$\hat{\boldsymbol{\beta}}=(\hat{\beta}_0,\hat{\beta}_1,\cdots,\hat{\beta}_p)^T=(X^TX)^{-1}X^TY$
此时 $\boldsymbol{\beta}$ 的估计就得到了，如果再把它带回到模型中去就有：
$\hat{Y}=X\hat{\boldsymbol{\beta}}=X(X^TX)^{-1}X^TY=SY$
一般统计学上称 $S$ 是 $Y$ 的帽子矩阵，这个称呼是因为有 $S$ 的存在使 $Y$ 带上了帽子（总感觉怪怪的？）接下来看残差：
$\hat{\boldsymbol{\varepsilon}}=Y-\hat{Y}=(I-H)Y$
$I$ 是 $n$ 阶的单位矩阵，显然残差的总和为0，是因为 $Q(\boldsymbol{\beta})$ 对截距项求偏导数等于0时：
$-2\sum_{i=1}^n[y_i-(\beta_0+\sum_{i=1}^p\beta_ix_i)]=0$
这个式子很明显表达了当存在截距项时，残差和必然为0，这也是为什么200年前拉普拉斯放弃了最小一乘法。也可以证明最小二乘法得到的估计和最大似然估计的结果是相同的，都是无偏估计。关于最小二乘法的BLUE性质不是本文的重点不再赘述。

补充几个推导过程中用到的矩阵求偏导法则

$\frac{\partial x^Ta}{\partial x}=\frac{\partial a^Tx}{\partial x}=a$
$\frac{\partial x^TAx}{\partial x}=Ax+A^Tx$
如果 $A$ 是对称的: $Ax+A^Tx=2Ax$ .
至此推导过程完毕。