统计学第十二周:回归分析
一、 概念
回归分析主要解决的问题有:
(1)从一组样本数据出发,确定变量之间的数学关系式
(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出那些变量的影响是显著的,那些事不显著的。
(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。
-
一元线性回归
1.1 相关关系
⚛️ 如果两个变量,一个增长另一个也随之增长,则成为正相关,反之为负相关。可以用散点图初步展示一下数据的相关关系。
👟相关系数:correlation coefficient ,是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,
称 为 总 体 相 关 系 数 , 记 为 ρ ; 若 是 根 据 样 本 数 据 计 算 的 , 称 为 样 本 相 关 系 数 , 记 为 γ 称为总体相关系数,记为\rho ;若是根据样本数据计算的,称为样本相关系数 ,记为 \gamma 称为总体相关系数,记为ρ;若是根据样本数据计算的,称为样本相关系数,记为γ样 本 相 关 系 数 的 计 算 公 式 γ = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 n ∑ y 2 − ( ∑ y ) 2 样本相关系数的计算公式\gamma = \frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}} 样本相关系数的计算公式γ=n∑x2−(∑x)2n∑y2−(∑y)2n∑xy−∑x∑y
按照上述公式计算的相关系数也称为线性相关系数 linear correlation coefficient ,或称为Pearson 相关系数(Pearson’s correlation coefficient)。
🛰相关系数r的取值范围为[-1,1],如果为正,表明两者间存在正线性相关关系,如果为负,则是负线性相关关系。若r=+1 ,表明完全正线性相关关系,如r=-1,表明x与y间为完全负线性相关关系。r=0时,表明两者不存在线性相关关系。r具有对称性。
1.2 最小二乘法
对于第i个x值,估计的回归方程可表示为:
y ^ i = β ^ 0 + β ^ 1 x i \widehat{y}_i=\widehat{\beta}_0+\widehat{\beta}_1x_i y i=β 0+β 1xi
利用德国科学家卡尔-高斯提出的最小化图中垂直方向的离差平方和来估计参数,根据这一方法确定模型参数的方法称为最小二乘法,也称为最小平方法。
根
据
最
小
二
乘
法
,
使
Q
=
∑
(
y
i
−
y
^
i
)
2
=
∑
(
y
i
−
β
^
0
−
β
^
1
x
i
)
2
,
最
小
根据最小二乘法,使Q=\sum(y_i-\widehat{y}_i)^2=\sum{(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)}^2 ,最小
根据最小二乘法,使Q=∑(yi−y
i)2=∑(yi−β
0−β
1xi)2,最小
求 偏 导 数 , 得 到 ∂ Q ∂ β 0 ∣ β 0 = β ^ 0 = − 2 ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i ) = 0 求偏导数,得到\frac{\partial Q}{\partial \beta_0}|_{\beta_0=\widehat{\beta}_0}=-2\sum_{i=1}^{n}(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0 求偏导数,得到∂β0∂Q∣β0=β 0=−2i=1∑n(yi−β 0−β 1xi)=0
∂ Q ∂ β 1 ∣ β 1 = β ^ 1 = − 2 ∑ i = 1 n x i ( y i − β ^ 0 − β ^ 1 x i ) = 0 \frac{\partial{Q}}{\partial{\beta}_1}|_{\beta_1=\widehat{\beta}_1}=-2\sum_{i=1}^{n}x_i(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0 ∂β1∂Q∣β1=β 1=−2i=1∑nxi(yi−β 0−β 1xi)=0
然后求解方程组,(截距通常没有物理意义)
当
x
=
x
‾
时
,
y
^
=
y
‾
,
即
回
归
直
线
通
过
(
x
‾
,
y
‾
)
,
这
是
重
要
的
特
征
。
当x=\overline{x}时,\widehat{y}=\overline{y},即回归直线通过(\overline{x},\overline{y}),这是重要的特征。
当x=x时,y
=y,即回归直线通过(x,y),这是重要的特征。
1.3 拟合优度检测
回归直线与各观测点的接近程度称为回归直线对数据的拟合优度 goodness of fit。直线的拟合优度,需要计算判定系数。
判定系数是对估计的回归方程拟合优度的度量。
总
平
方
和
:
S
S
T
=
∑
(
y
i
−
y
‾
)
2
总平方和:SST=\sum{(y_i-\overline{y})^2}
总平方和:SST=∑(yi−y)2
S S T = ∑ ( y i − y ‾ ) 2 = ∑ ( y i − y ‾ i ) 2 + ∑ ( y ^ i − y ‾ ) 2 SST=\sum(y_i-\overline{y})^2=\sum{(y_i-\overline{y}_i)^2}+\sum{(\widehat{y}_i-\overline{y})^2} SST=∑(yi−y)2=∑(yi−yi)2+∑(y i−y)2
S S T = S S E + S S R , S S E 为 残 差 平 方 和 或 误 差 平 方 和 ( x 对 y 线 性 影 响 之 外 的 其 他 因 素 引 起 的 y 的 变 化 ) , S S R 为 回 归 执 行 , 即 X 变 化 引 起 的 y 的 变 化 , 称 为 回 归 平 方 和 。 SST=SSE+SSR,SSE为残差平方和或误差平方和(x对y线性影响之外的其他因素引起的y的变化),SSR为回归执行,即X变化引起的y的变化,称为回归平方和。 SST=SSE+SSR,SSE为残差平方和或误差平方和(x对y线性影响之外的其他因素引起的y的变化),SSR为回归执行,即X变化引起的y的变化,称为回归平方和。
判定系数coefficient of determination ,回归平方和占总平方和的比例称为判定系数
判
定
系
数
R
2
=
S
S
R
S
S
T
=
∑
(
y
^
i
−
y
‾
)
2
∑
(
y
i
−
y
‾
)
2
=
1
−
∑
(
y
i
−
y
^
i
)
2
∑
(
y
i
−
y
‾
)
2
判定系数R^2=\frac{SSR}{SST}=\frac{\sum{(\widehat{y}_i-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum{(y_i-\widehat{y}_i)^2}}{\sum{(y_i-\overline{y})^2}}
判定系数R2=SSTSSR=∑(yi−y)2∑(y
i−y)2=1−∑(yi−y)2∑(yi−y
i)2
判定系数测度了回归直线对观测数据的拟合程度。范围[0,1],在一元线性回归中,相关系数r实际上是判定系数的平方根。判定系数为1,则拟合是完全的;当判定系数为0时,两者完全没有关系。相关系数与直线的斜率符号是一致的。
注:用r说明回归直线的拟合优度要慎重。
1.4 显著性实验
一
般
情
况
下
,
总
体
相
关
系
系
数
ρ
是
未
知
的
,
通
常
将
样
本
相
关
系
数
γ
作
为
ρ
的
近
似
估
计
值
。
一般情况下,总体相关系系数\rho是未知的,通常将样本相关系数\gamma作为\rho的近似估计值。
一般情况下,总体相关系系数ρ是未知的,通常将样本相关系数γ作为ρ的近似估计值。
这样根据抽样,往往会具有波动性,考察样本相关系数的可靠性,就需要进行显著性检验。
🔽 r的抽样分布
🔽r的显著性检验
对r抽样分布,如果假设服从正态检验,具有很大的风险,依据经验采用费希尔提出的T检验,该检验可以用于小样本,也可以用于大样本。
回归分析的主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。但是建立方程后,还需要通过检验来验证是否真的满足整体。
回归分析中的显著性检验主要包括两方面:一是线性关系的检验;二是回归系数的检验。
⚖️线性关系检验是检验自变量x和因变量y之间的线性关系是否显著。
F
=
S
S
R
/
1
S
S
E
/
(
n
−
2
)
,
服
从
分
子
自
由
度
为
1
,
分
母
自
由
度
为
n
−
2
的
F
分
布
。
F=\frac{SSR/1}{SSE/(n-2)},服从分子自由度为1,分母自由度为n-2的F分布。
F=SSE/(n−2)SSR/1,服从分子自由度为1,分母自由度为n−2的F分布。
假设的步骤:
1
:
提
出
假
设
,
H
0
:
β
1
=
0
两
个
变
量
之
前
线
性
关
系
不
显
著
1:提出假设,H_0: \beta_1=0 两个变量之前线性关系不显著
1:提出假设,H0:β1=0两个变量之前线性关系不显著
2. 计 算 检 验 统 计 量 F = S S R / 1 S S E / ( N − 2 ) = M S R M S E 2.计算检验统计量F = \frac{SSR/1}{SSE/(N-2)}=\frac{MSR}{MSE} 2.计算检验统计量F=SSE/(N−2)SSR/1=MSEMSR
3. 做 出 决 策 。 确 定 显 著 性 水 平 , 并 根 据 分 子 自 由 度 和 分 母 自 由 度 查 找 F 分 布 表 , 找 到 响 应 的 临 界 值 F α 。 若 F > F α , 则 拒 绝 H 0 , 表 明 两 个 变 量 之 间 的 线 性 关 系 是 显 著 的 ; 若 < , 不 拒 绝 假 设 , 则 没 有 证 据 表 明 两 个 变 量 之 间 的 线 性 关 系 。 3.做出决策。确定显著性水平,并根据分子自由度和分母自由度查找F分布表,找到响应的临界值F_\alpha。 若F>F_\alpha,则拒绝H_0,表明两个变量之间的线性关系是显著的;若<,不拒绝假设,则没有证据表明两个变量之间的线性关系。 3.做出决策。确定显著性水平,并根据分子自由度和分母自由度查找F分布表,找到响应的临界值Fα。若F>Fα,则拒绝H0,表明两个变量之间的线性关系是显著的;若<,不拒绝假设,则没有证据表明两个变量之间的线性关系。
⚖️回归系数的检验,是要检验自变量对因变量的影响是否显著。
1.
假
设
检
验
H
0
:
β
1
=
0
,
H
1
:
β
1
≠
0
1.假设检验H_0: \beta_1=0,H_1: \beta_1 \neq 0
1.假设检验H0:β1=0,H1:β1=0
2. 计 算 检 验 统 计 量 t = β ^ 1 / s β ^ 1 2.计算检验统计量t = \widehat{\beta}_1/s_{\widehat{\beta}_1} 2.计算检验统计量t=β 1/sβ 1
3. 做 出 决 策 。 确 定 显 著 性 水 平 α , 并 根 据 自 由 度 n − 2 查 t 分 布 表 , 找 到 相 应 的 临 界 值 t α / 2 。 若 ∣ ∣ 3. 做出决策。确定显著性水平\alpha,并根据自由度n-2查t分布表,找到相应的临界值t_{\alpha /2}。若|| 3.做出决策。确定显著性水平α,并根据自由度n−2查t分布表,找到相应的临界值tα/2。若∣∣
若 ∣ t ∣ > t α / 2 则 拒 绝 H 0 , 则 回 归 系 数 等 于 0 的 可 能 性 小 于 α , 表 明 自 变 量 x 对 因 变 量 y 的 影 响 是 显 著 的 。 若|t|>t_{\alpha/2}则拒绝H_0,则回归系数等于0的可能性小于\alpha,表明自变量x对因变量y的影响是显著的。 若∣t∣>tα/2则拒绝H0,则回归系数等于0的可能性小于α,表明自变量x对因变量y的影响是显著的。
在一元线性回归中因为只有一个自变量,F检验和t检验是等价的,但在多元回归分析中,这两种的意义是不同。
1.5 回归预测
y=f(x)的关系,利用一系列x,y的值需求一个数学表达式,从而利用已知的X来预测y值的过程。当回归中只涉及一个自变量时,称为一元回归,若因变量y与自变量x之间为线性关系,则称为一元线性回归。
一
元
线
性
回
归
模
型
:
y
=
β
0
+
β
1
x
+
ϵ
一元线性回归模型: y=\beta_0+\beta_1x+\epsilon
一元线性回归模型:y=β0+β1x+ϵ
ϵ 为 误 差 项 , y 是 x 的 线 性 函 数 ( β 0 + β 1 x ) , 反 映 了 由 于 x 的 变 化 而 引 起 的 y 的 线 性 变 化 。 \epsilon 为误差项,y是x的线性函数 (\beta_0+\beta_1x),反映了由于x的变化而引起的y的线性变化。 ϵ为误差项,y是x的线性函数(β0+β1x),反映了由于x的变化而引起的y的线性变化。
[
根
据
回
归
模
型
中
的
假
定
,
ϵ
的
期
望
值
等
于
0
,
因
此
y
的
期
望
值
E
(
Y
)
=
β
0
+
b
e
t
a
1
x
,
也
就
是
说
y
的
期
望
值
是
x
的
线
性
函
数
。
根据回归模型中的假定,\epsilon的期望值等于0,因此y的期望值E(Y)=\beta_0+beta_1x,也就是说y的期望值是x的线性函数。
根据回归模型中的假定,ϵ的期望值等于0,因此y的期望值E(Y)=β0+beta1x,也就是说y的期望值是x的线性函数。
描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。
🔽估计的回归方程 estimated regression equation
y
^
=
β
^
0
+
β
^
1
x
\widehat{y}= \widehat{\beta}_0+\widehat{\beta}_1x
y
=β
0+β
1x
1.6 残差分析
判定系数可以用于度量回归直线的拟合程度,相关系数也可以起到类似的作用。而残差平方和则可以说明实际观测值与回归估计值之间的差异程度。
估计标准误差standard error of estimate就是度量各实际观测点在直线周围的散布状况的一个统计量,他是均方残差MSE的平方根,
S
e
=
∑
(
y
i
−
y
^
i
)
2
n
−
2
=
S
S
E
n
−
2
=
M
S
E
S_e=\sqrt{\frac{\sum(y_i-\widehat{y}_i)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}
Se=n−2∑(yi−y
i)2=n−2SSE=MSE
KaTeX parse error: Undefined control sequence: \epsison at position 4: 假定\̲e̲p̲s̲i̲s̲o̲n̲是否成立,方法之一就是进行残差…
残差是因变量的观测值与根据估计的回归方程求出的预测值之差。e表示;也可以通过标准化残差。标准化残差是残差除以它的标准差之后得到的数值也称为pearson残差。
-
多元线性回归
2.1 多重共线性
KaTeX parse error: Undefined control sequence: \elpson at position 55: …...+\beta_kx_k+\̲e̲l̲p̲s̲o̲n̲ ̲
多元回归,参数的最小二乘估计,等参考一元线性回归计算方式。在回归模型中两个或两个以上的自变量彼此相关时,称为回归模型中存在多重共线性。
检测多重共线性的一个方法是用对各相关系数进行显著性检验。如果一个或多个相关系数是显著的,就表明模型中所使用的自变量之间相关。
2.2 变量选择与逐步回归
选择自变量的原则是对统计量进行显著性检验,检验的依据是:将一个或一个以上的自变量引入回归模型中时,是否使残差平方和SSE显著减少。
变量的选择方法主要有:向前选择forward selection 、向后剔除 backward elimination 、逐步回归stepwise regression 、最优子集等。
逐步回归:融合向前选择和向后剔除的方法。:按照此方法不停的增加变量并考虑剔除以前增加的变量的可能性,直至增加变量不会导致SSE显著减少,这个过程可以用F统计量来检验。