《误差理论》——回归分析(1)_一元线性回归方程的矩阵形式-CSDN博客

本文链接：https://blog.csdn.net/qq_40777436/article/details/138130732

博客围绕回归分析展开，重点介绍一元线性回归，包括回归方程的表达式、矩阵形式等。还探讨回归方程的稳定性，分析回归问题的方差，进行回归方程显著性检验，计算残余方差与标准差。此外，阐述了重复实验情况下的方差分析及相关检验结果的意义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

回归分析

为了寻找两个变量或多个变量之间的内在关系

1、一元线性回归

一元线性回归方程 $\hat{y}=b_0+bx$ 残差 $v_t=y_t-\hat{y}_t=y_t-b_0-bx_t,t=1,2,...,N$
矩阵形式 $Y=\left( \begin{matrix} y_1 \\ y_2 \\ ... \\ y_N \\ \end{matrix} \right)$ $X=\left( \begin{matrix} 1 & x_1 \\ 1 & x_2 \\ ...&... \\ 1 & x_N \\ \end{matrix} \right)$ $b=\left( \begin{matrix} b_0 \\ b \\ \end{matrix} \right)$ $V=\left( \begin{matrix} v_1 \\ v_2 \\ ... \\ v_N \\ \end{matrix} \right)$ 其中 $b=(X^TX)^{-1}X^TY=CB$ 。令 $A=X^TX$ ，则 $C=A^{-1},B=X^TY$ ，将 $C, B$ 带入 $b = CB$ 中可得 $b_0,b$ ： $b=\frac{N\sum_{t=1}^{N}x_ty_t-(\sum_{t=1}^Nx_t)(\sum_{t=1}^Nx_ty_t)}{N\sum_{t=1}^Nx_t^2-(\sum_{t=1}^Nx_t)^2}=\frac{l_{xy}}{l_{xx}}$ $b_0=\frac{(\sum_{t=1}^Nx_t^2)(\sum_{t=1}^Ny_t)-(\sum_{t=1}^Nx_t)(\sum_{t=1}^Nx_ty_t)}{N\sum_{t=1}^Nx_t^2-(\sum_{t=1}^Nx_t)^2}=\bar{y}-b\bar{x}$ 其中， $\bar{x}=\frac{1}{N}\sum_{t=1}^{N}x_t$ $\bar{y}=\frac{1}{N}\sum_{t=1}^{N}y_t$ $l_{xx}=\sum_{t=1}^N(x_t-\bar{x})^2=\sum_{t=1}^Nx_t^2-\frac{1}{N}(\sum_{t=1}^Nx_t)^2$ $l_{xy}=\sum_{t=1}^N(x_t-\bar{x})(y_t-\bar{y})=\sum_{t=1}^Nx_ty_t-\frac{1}{N}(\sum_{t=1}^{N}x_t)(\sum_{t=1}^{N}y_t)$ $l_{yy}=\sum_{t=1}^{N}(y_t-\bar{y})^2=\sum_{t=1}^{N}y_t^2-\frac{1}{N}(\sum_{t=1}^{N}y_t)^2$ $\Longrightarrow\hat{y}-\bar{y}=b(x-\bar{x})$

2、回归方程的稳定性

设 $\sigma$ 为测量数据 $y$ 的残余标准差，则 $\sigma_{\hat{y}}=\sigma\sqrt{\frac{1}{N}+\frac{(x-\bar{x})^2}{l_{xx}}}$
从上式可以看出，回归值的波动大小不仅与残余标准差 $\sigma$ 有关，而且还取决于实验次数 $N$ 和 $x$ 的取值范围—— $N$ 越大， $x$ 取值范围越小，回归值 $\hat{y}$ 精度越高

3、回归问题的方差分析

$N$ 个观测值之间的变差，可用观测值 $y$ 与其算数平均值 $\bar{y}$ 的离差平方和来表示，即总的离差平方和 $S=\sum_{t=1}^N(y_t-\bar{y})=l_{yy}=\sum_{t=1}^N(\hat{y}_t-\bar{y})^2+\sum_{t=1}^N(\hat{y}_t-y_t)^2=U+Q$ 其中回归平方和 $U$ : $U=\sum_{t=1}^N(\hat{y}_t-\bar{y})^2$ 反映在 $y$ 总的变差中由于 $x$ 和 $y$ 的线性关系而引起 $y$ 变化的部分 $回归平方和U=\sum_{t=1}^N(\hat{y}_t-\bar{y})^2$ 残余平方和 $Q$ $Q=\sum_{t=1}^N(\hat{y}_t-y_t)^2$ 反映除 $x$ 对 $y$ 的线性影响之外的一切因素对 $y$ 的变差作用。 $U=\sum_{t=1}^N(\hat{y}_t-\bar{y})^2=\sum_{t=1}^N(b_0+bx_t-b_0-b\bar{x})^2=b^2\sum_{t=1}^N(x_t-\bar{x})^2=b\sum_{t=1}^N(x_t-\bar{x})(\hat{y}_t-\bar{y})=bl_{xy}$ $Q=\sum_{t=1}^N(\hat{y}_t-y_t)^2=S-U=l_{yy}-bl_{xy}$ 自由度 $v_S=v_U+v_Q$ 其中， $v_s=N-1$ , $v_u$ 对应自变量个数， $N$ 表示 $N$ 次检验

4、回归方程显著性检验

$F=\frac{U/v_U}{Q/v_Q}$ 对于一元线性回归 $F=\frac{U/1}{Q/N-2}$ 通过 $v_1$ 和 $v_2$ 查 $F$ 分布表，需查三种不同显著性水平 $\alpha$ 的数值，记为 $F_a(v_1,v_2)$ 其中一元，所以为 $F_a(1,N-2)$

(a)、 若 $F\ge F_{0.01}(1,N-2)$ ，认为回归是高度显著的（或称在0.01水平上显著）
(b)、 若 $F_{0.05}(1,N-2)\le F<F_{0.01}(1,N-2)$ ，认为回归是显著的（或称在0.05水平上显著）
©、若 $F_{0.10}(1,N-2)\le F<F_{0.05}(1,N-2)$ ，认为回归在0.10水平上显著
(d)、 若 $F<F_{0.01}(1,N-2)$ ，认为回归不显著，此时 $y$ 对 $x$ 的线性关系不密切

5、残余方差与残余标准差

残余方差：残余平方和 $Q$ 除以它的自由度 $v_Q$ : $\sigma^2=\frac{Q}{v_Q}=\frac{Q}{N-2}$ 残余标准差： $\sigma=\sqrt{\frac{Q}{N-2}}$

6、方差分析表（一元线性回归）

来源	平方和	自由度	方差	$F$	显著性
回归	$U=bl_{xy}$	1		$F=\frac{U/1}{Q/N-2}$	——
残余	$Q=l_{yy}-bl_{xy}$	$N - 2$	$\sigma^2=\frac{Q}{N-2}$	$F=\frac{U/1}{Q/N-2}$	——
总计	$S=l_{yy}$	$N - 1$	——	——	——

7、重复实验情况

设取 $N$ 个实验点，每个实验点都重复 $m$ 次实验， $S=U+Q_L+Q_E,v_S=v_U+v_L+v_E$ 其中， $Q_L$ 为失拟平方和， $Q_L$ 为误差平方和。 $S=\sum_{t=1}^N\sum_{i=1}^m(y_{ti}-\bar{y})^2,v_s=N_m-1$ $U=m\sum_{t=1}^N(\hat{y}_{t}-\bar{y})^2,v_u=1$ $Q_E=\sum_{t=1}^N\sum_{i=1}^m(y_{ti}-\bar{y}_t)^2,v_{Q_E}=N(m-1)$ $Q_L=m\sum_{t=1}^N(\bar{y}_{t}-\bar{y})^2,v_{Q_L}=N-2$
简化后： $S=U+Q_L+Q_E,v_s=N_m-1$ $U=mbl_{xy},v_u=1$ $Q_E=\sum_{t=1}^N\sum_{i=1}^m(y_{ti}-\bar{y}_t)^2,v_{Q_E}=N(m-1)$ $Q_L=ml_{yy}-U,v_{Q_L}=N-2$

8、方差分析表（多次重复实验下的一元线性回归）

来源	平方和	自由度	方差	$F$	显著性
回归	$U=mbl_{xy}$	1	$U /1$	$F$	——
失拟	$Q_L=mbl_{yy}-U$	$N - 2$	${Q_L}/{N-2}$	$F_1$	——
误差	$Q_E=\sum_{t=1}^N\sum_{i=1}^m(y_{ti}-\bar{y}_t)^2$	$N (m - 1)$	${Q_E}/({N(m-1)})$	——	——
总计	$S=U+Q_L+Q_E$	$N m - 1$	——	——	——

其中 $F=\frac{U/v_U}{Q_E/v_{Q_E}},F_1=\frac{Q_L/v_{Q_L}}{Q_E/v_{Q_E}}$ (1)、若失拟平方和得 $F_1$ 检验结果高度显著，则失拟误差不可忽略，有以下几种可能：
(a)、影响 $y$ 得除 $x$ 外，至少还有一个不可忽略得因素
(b)、 $y$ 和 $x$ 是曲线关系
©、 $y$ 和 $x$ 无关
总之，“一元线性回归数学模型与实际情况不符合”。失拟平方和 $Q_L$ 或失拟方差反映了拟合误差，通常称为模型误差。

(2)、若失拟平方和的 $F_1$ 检验结果不显著，说明非线性误差（相对于实验误差）很小，基本上是由于实验误差等随机因素引起，所以接着对回归平方和进行 $F_2$ 检验，即 $F_2=\frac{U/v_u}{(Q_L+Q_E)(v_{Q_L}+v_{Q_E})}$ (a)、若 $F_2$ 结果显著，一元回归方程拟合的好
(b)、对于给定的显著性水平 $\alpha$ ，若 $F_2$ 结果不显著，则
$\cdot$ 没有什么因素对 $y$ 有系统的影响
$\cdot$ 实验误差过大

(3)、 $F_1$ 检验结果显著
用 $Q_E$ 对 $U$ 进行 $F_2$ 检验 $F_2=\frac{U/v_U}{Q_E/v_{Q_E}}$ 再用 $Q_E+Q_L=Q$ 对 $U$ 进行 $F_2$ 检验 $F_2=\frac{U/v_U}{Q/v_Q}$ （“视情况而定”： $F_2$ 都显著，拟合不好，但小于实验要求即可）