多元回归与相关------（一）多元回归

最新推荐文章于 2024-08-21 18:14:50 发布

我不爱机器学习

最新推荐文章于 2024-08-21 18:14:50 发布

阅读量9.8k

点赞数 6

分类专栏：统计

本文链接：https://blog.csdn.net/mengjizhiyou/article/details/82078127

版权

统计专栏收录该内容

39 篇文章 28 订阅

订阅专栏

一元回归：依变数Y对一个自变数X的回归。

多元回归或复回归（multiple regression）:依变数依两个或两个以上自变数的回归。

主要内容：

（1）确定各个自变数对依变数的单独效应和综合效应，建立由各个自变数描述和预测依变数反应量的多元回归方程。

（2）对上述综合效应和单独效用的显著性进行测验，并在大量自变数中选择仅对依变数有显著效用的自变数，建立最优多元回归方程

（3）评定各个自变数对依变数的相对重要性，以便研究者抓住关键，能动地调节依变数的响应量。

一、多元回归方程

（1）多元回归线性模型和多元回归方程式

依变数同时受到m个自变数X1，X2，...,Xm的影响，且这m个自变数皆与Y成线性关系，这m+1个变数的关系就形成m元线性回归：

线性模型： $Y_{j}=\beta _{0}+\beta _{1}X_{1j}+\beta _{2}X_{2j}+...+\beta _{m}X_{mj}+\varepsilon _{j}$ 其中， $\varepsilon _{j}\sim N(0,\sigma _{\varepsilon }^{2 })$

则一个m元线性回归的样本观察值组为： $Y_{j}=b _{0}+b _{1}x_{1j}+b _{2}x_{2j}+...+b_{m}x_{mj}+e _{j}$

误差项反映了除X1，X2，...,Xm与y的线性关系之外的随机因素对y的影响，是不能由X1，X2，...,Xm与y之间的线性关系所解释的变异性。

误差项 $\varepsilon$ 有三个基本假定：

（1）误差项 $\varepsilon$ 是一个期望值为0的随机变量， $E(\varepsilon )=0$ 。意味着对于给定 X1，X2，...,Xm的值，y的期望值 $E(y )$ $=\beta _{0}+\beta _{1}X_{1j}+\beta _{2}X_{2j}+...+\beta _{m}X_{mj}$

（2）对于自变量X1，X2，...,Xm的所有值， $\varepsilon$ 的方差 $\sigma ^{2}$ 都相同。

（3）误差项 $\varepsilon$ 是一个服从正态分布的随机变量，且相互独立， $\varepsilon _{j}\sim N(0,\sigma _{\varepsilon }^{2 })$ 。

独立性意味着自变量 X1，X2，...,Xm 的一组特定值所对应的 $\varepsilon$ 与 X1，X2，...,Xm 任意一组其他值所对应的 $\varepsilon$ 不相关。正态性意味着对于给定的 X1，X2，...,Xm 的值，因变量y是一个服从正态分布的随机变量。

在一个具有n组观察值的样本中，第j组观察值（j=0,1,2,...,m）可表示为 $(x_{1j},x_{2j},...,x_{mj},y_{j})$ ,便是M=m+1维空间中的一个点。

一个m元线性回归方程可给定为： $\hat{y}=b{} _{0}+b _{1}x_{1}+b _{2}x_{2}+...+b_{m}x_{m}$

b0是 $x_{1},x_{2},...,x_{m}$ 都为0时y的点估计值

b1是在 $x_{2},x_{3},...,x_{m}$ 皆保持一定时，x1每增加一个单位对y的效用，称为 $x_{2},x_{3},...,x_{m}$ 不变（取常量）时x1对y 的偏回归系数（partial regression coefficient）。

在多元回归系统中，b0一般很难确定其专业意义，它仅是调节回归响应面的一个统计数；bi(i=1,2,...,m)表示了各个自变数xi对依变数y的各自效应， $\hat{y}$ 是这些各自效应的集合，代表多有自变数对依变数的综合效用。

（2）多元回归统计数的计算

（3）多元回归方程的估计标准误（参数的最小二乘估计）

满足 $Q=\sum (y-\hat{y})^{2}$ =最小，Q叫做多元离回归平方和或多元回归剩余平方和。

因为系数b有m+1个统计数，所以自由度=n-(m+1)。多元回归的估计标准误：

$s_{y/12...m}=\sqrt{\frac{Q_{y/12...m}}{n-(m+1)}}$

总平方和（ $SS_{y}$ ）=回归平方和（ $U_{y/12...m}$ ）+离回归平方和( $Q_{y/12...m}$ )

$SS_{y}=Y'Y-(1'Y)^{2}/n$

$Q_{y/12...m}=Y'Y-b'X'Y$

$U_{y/12...m}=b'X'Y-(1'Y)^{2}/n=SS_{y}-Q_{y/12...m}$

二、多元回归的假设测验

（1）多元回归关系的假设测验

测验m个自变数的综合对Y的效用是否显著。无效假设： $\beta _{1}=\beta _{2}=...=\beta _{m}=0$ ,备择假设： $\beta _{i}$ 不全为0

（2）偏回归关系的假设测验

多元回归关系的假设测验只是一个综合性的测验，它的显著表明自变数的集合和y有回归关系，并不排除个别乃至部分自变数和y没有回归关系的可能性。要准确评定各个自变数对y是否有真实回归关系，需进行偏回归系数的显著性做出假设测验。

在多元回归中的各个自变数彼此独立、完全无关时， $U_{y/12...m}=\sum_{1}^{m} U_{p_{i}}$ 成立

当各自变数间存在相关（ $r_{ij}\neq 0$ ）时， $U_{y/12...m}\neq \sum_{1}^{m} U_{p_{i}}$ ，这是由于各自变数间的相关使其对y的效应产生了混淆。

若两个自变数 $x_{1},x_{2}$ ,有显著的正相关（ $r_{12}> 0$ ）,则 $x_{1}$ 的增大对于y的效应中包含有 $x_{2}$ 增大的效用，反之亦然（ $x_{1}$ 的大值和 $x_{2}$ 的大值相连， $x_{1}$ 的小值和 $x_{2}$ 的小值相连）： $U_{y/12...m}>\sum_{1}^{m} U_{p_{i}}$

若两个自变数 $x_{1},x_{2}$ ,有显著的负相关（ $r_{12}< 0$ ）,则 $x_{1}$ 的增大对于y的效应中包含有 $x_{2}$ 减少的效用， $x_{2}$ 的增大对于y的效应中包含有 $x_{1}$ 减少的效用： $U_{y/12...m}< \sum_{1}^{m} U_{p_{i}}$

三、最优多元线性回归方程的统计选择

一个实际的多变数资料，既含有对Y 有显著效用的自变数，也含有无显著效应的自变数。在偏回归关系的假设测验中，通常一些bi显著，另一些bi不显著。

多元线性回归分析中，必须剔除没有显著效用的自变数，以使所得的多元回归方程比较简化而又能较准确地分析和预测Y的反应。剔除不显著自变数的过程称为自变数的统计选择，所得的仅包含显著自变数的多元回归方程，叫做最优的（在被研究的自变数范围内）多元线性回归方程。

由于自变数间可能存在相关，当m元线性回归中不显著的自变数有几个时，并不能肯定这些自变数对Y的线性效用不显著，而只能肯定偏回归平方和最小的那一个自变数不显著。当剔除了这个不显著且偏回归平方和最小的自变数后，其余原来不显著的自变数可能变为显著，而原来显著的自变数也可能变得不显著。为了获得最优方程，回归计算要一步一步做下去，直至所有不显著的自变数皆被剔除为止。这一统计选择自变数的过程称为逐步回归（stepwise regression）。

自变数统计选择的具体步骤：

（1）：m个自变数的回归分析，一直进行到偏回归的假设测验。若各自变数的偏回归皆显著，则分析结束，所得方程就是最优多元回归方程；若有一个或一个以上自变数的偏回归不显著，则剔除那个偏回归平方最小的自变数（设为 $X_{p}$ ）,进行第二步分析。

（2）：m-1个自变数的回归分析，也是一直进行到偏回归的假设测验。这一步的计算程序是将矩阵X中的Xp所占有的那一列（第p+1列）剔除，再由新 X 计算 X'X、 $(X'X)^{-1}$ 和 b 等，从而获得新的Q和 $U_{p_{i}}$ 。如果这一步仍有一个以上自变数的偏回归不显著，则再将偏回归平方和最小的那个变数（设为Xq）剔除，进入第三步分析。若第一步中有二个或更多个自变数的偏回归不显著，这一步可轮流试踢，直到找到最需剔除的一个，在进入第三步。