1. 介绍引入
首先,我们要对回归分析有一个感性的认知,什么是回归分析?回归分析是用来做什么的?回归分析和其他统计分析方法比如相关分析有什么联系?回归分析的分类等等。
在很多情况下,一个变量的变化能完全决定另一种变量的变量的变化,二者之间存在确定性的函数关系。例如银行一年期存款利率为2.55%,若本金用 x x x 表示,到期本息用 y y y 表示,则 y = x + 2.55 % x y=x+2.55\% x y=x+2.55%x。但是在现实世界中,还有不少情况是事物之间有着密切的关系,但还没有到由一个完全确定另一个的程度,其原因可能是问题的复杂性,人们认识的局限性,试验或测量误差等等。在统计推断中,把上述变量间有密切关系而又不能由一个或一些变量唯一确定另外一个变量的关系,称为变量间的统计关系或相关关系,这种统计关系规律性的研究已形成两个重要分支:相关分析和回归分析。
相关分析(correlation analysis)是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。
回归分析(regression analysis) 指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
讨论:相关分析与回归分析的区别和联系
- 变量地位不同:回归分析中, y y y 指因变量,处于被解释的特殊地位;相关分析中各变量处于平等地位,即研究变量 y y y与变量 x x x 的密切程度和研究变量 x x x与变量 y y y 的密切程度是一样的。
- 变量性质不同:回归分析中,因变量 y y y 是随机变量,自变量 x x x 既可以是随机变量,也可以是确定变量,但通常总是假定 x x x 是非随机的固定变量;相关分析中所涉及的都为随机变量。
- 研究侧重点不同:回归分析侧重于研究随机变量间的依赖关系,因此要事先确定自变量和因变量,从而用自变量去推测因变量,通过确切地指出变量间相互关系的具体形式,对变量进行预测和控制;相关分析侧重于发现随机变量间的种种相关特性,以及相互关系的密切程度,不必确定自变量和因变量,不指出相互关系的具体形式。
- 二者之间的联系:具体应用时二者常常相互补充,相关分析依靠回归分析表明数量关系的具体形式,回归分析依靠相关分析表明相关的程度,只有变量之间存在高度相关时,进行回归分析才有意义。总结:相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。
回归分析按照涉及的自变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
那么,先从最简单的一元线性回归开始,详细介绍回归分析的具体原理~
2. 一元线性回归
2.1 模型建立
一元线性回归模型只考虑一个自变量和一个因变量之间的关系,其数学形式为: y = β 0 + β 1 x + ϵ (1) y=\beta_0+\beta_1x+\epsilon \tag{1} y=β0+β1x+ϵ(1) 这个式子被称为一元线性回归理论模型。其中, β 0 , β 1 \beta_0,\beta_1 β0,β1 为未知参数 β 0 \beta_0 β0 是回归常数, β 1 \beta_1 β1 为回归系数, ϵ \epsilon ϵ 表示其他随机因素的影响,它是一个随机变量。这个式子看起来很简单,但是它充分表达了 x x x 和 y y y 之间密切相关,但由于 ϵ \epsilon ϵ 的存在不能唯一确定。 x x x 和 y y y 之间的关系由两个部分描述:一部分是由于 x x x 的变化引起的 y y y 的线性变化,另一部分是由其他一切随机因素引起的。
既然 ϵ \epsilon ϵ 是随机变量,意味着能对其进行求期望、方差、协方差、分布等一系列操作。这就要介绍线性回归中的几个重要假设。
讨论:几个重要假设
对于某个实际问题,获得 n n n 组样本观测值 ( x 1 , y 1 ) , . . . , ( x n , y n ) (x_1,y_1),...,(x_n,y_n) (x1,y1),...,(xn,yn),它们符合模型 y i = β 0 + β 1 x i + ϵ i (2) y_i=\beta_0+\beta_1x_i+\epsilon_i \tag{2} yi=β0+β1xi+ϵi(2)我们做如下假设:
(1)自变量是非随机变量。(这一点之前也提过
(2) { E ( ϵ i ) = 0 D ( ϵ i ) = σ 2 \begin{cases} E(\epsilon_i)=0 \\ D(\epsilon_i)=\sigma^2 \end{cases} {E(ϵi)=0D(ϵi)=σ2 (高斯-马尔可夫条件)
(3)
ϵ
i
∼
N
(
0
,
σ
2
)
\epsilon_i \sim N(0,\sigma^2)
ϵi∼N(0,σ2),
ϵ
1
,
.
.
.
,
ϵ
n
\epsilon_1,...,\epsilon_n
ϵ1,...,ϵn 是相互独立的 (为了方便对参数做区间估计和假设检验)
.
现在,对这个式 (2) 两端分别求期望和方差:
E
(
y
i
)
=
E
(
β
0
+
β
1
x
i
)
+
E
(
ϵ
i
)
=
β
0
+
β
1
x
i
(3)
E(y_i)=E(\beta_0+\beta_1x_i)+E(\epsilon_i)=\beta_0+\beta_1x_i \tag{3}
E(yi)=E(β0+β1xi)+E(ϵi)=β0+β1xi(3)
D
(
y
i
)
=
D
(
β
0
+
β
1
x
i
+
ϵ
i
)
=
D
(
ϵ
i
)
=
σ
2
(4)
D(y_i)=D(\beta_0+\beta_1x_i+\epsilon_i)=D(\epsilon_i)=\sigma^2 \tag{4}
D(yi)=D(β0+β1xi+ϵi)=D(ϵi)=σ2(4)
从中可以看出,随机变量 y 1 , . . . , y n y_1,...,y_n y1,...,yn 期望不等,方差相等,它们是相互独立的随机变量,但并不同分布, y i ∼ N ( β 0 + β 1 x i , σ 2 ) y_i \sim N(\beta_0+\beta_1x_i,\sigma^2) yi∼N(β0+β1xi,σ2)。
重点看 (3) , 对 (3) 的正确理解非常重要。 E ( y i ) = β 0 + β 1 x i E(y_i)=\beta_0+\beta_1x_i E(yi)=β0+β1xi 从平均意义上表达了变量 y y y 与 x x x 的统计规律性,也就是说,回归是对均值的回归,我们所关注的正是这个期望。怎么来理解这件事情呢?
首先要明确,我们一再强调这是一种非确定性关系。举例来说,现要探究人身高(自变量)与体重(因变量)之间的关系,每一个身高值 x x x 都对应了一个体重 y y y 的概率分布,而不是一个具体确切的值。比如,一个人身高为165cm,ta的体重可能是40kg,50kg,60kg,70kg… 我们并不知道是多少,但我们会觉得在身高为165cm的条件下,ta的体重很可能是50kg,当然也可能是70kg,只是这个概率要小得多。同样的,如果 x x x 是180cm, y y y 的概率分布是什么样的呢?我们觉得,体重 y y y 是40kg 对应的概率小,而更可能是60或70kg,这就是 x x x 对应 y y y 的概率分布的意思。我们要计算出对于给定的 x x x ,其对应 y y y 的概率分布的期望是多少,并认为这个值是最有可能的 y y y 值。基于这个思想,可以给出如下的表达,它代表随机变量 y y y 对 x x x 的均值回归函数: f ( x ) = E ( y ∣ x ) (5) f(x)=E(y|x) \tag{5} f(x)=E(y∣x)(5)
2.2 参数估计
现在我们的主要任务就是利用 n n n 组观测值去估计 β 0 , β 1 \beta_0,\beta_1 β0,β1 的值,将估计值记作 β 0 ^ , β 1 ^ \hat{\beta_0},\hat{\beta_1} β0^,β1^,则称 y ^ = β 0 ^ + β 1 ^ x (6) \hat{y}=\hat{\beta_0}+\hat{\beta_1}x \tag{6} y^=β0^+β1^x(6) 为 y y y 关于 x x x 的一元线性经验回归方程。
采用普通最小二乘估计OLS,对每一个样本观测值 ( x i , y i ) (x_i,y_i) (xi,yi),考虑使观测值 y i y_i yi 与其回归值 y i ^ \hat{y_i} yi^ 的离差越小越好,综合得考虑 n n n 个离差值,定义离差平方和 Q ( β 0 , β 1 ) = ∑ i = 1 n ( y i − y i ^ ) 2 = ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 (7) Q(\beta_0,\beta_1)=\sum_{i=1}^n(y_i-\hat{y_i})^2=\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2 \tag{7} Q(β0,β1)=i=1∑n(yi−yi^)2=i=1∑n(yi−β0−β1xi)2(7) 找到 β 0 , β 1 \beta_0,\beta_1 β0,β1的估计值 β 0 ^ , β 1 ^ \hat{\beta_0},\hat{\beta_1} β0^,β1^令 Q Q Q 最小,得到 y i ^ = β 0 ^ + β 1 ^ x i \hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i yi^=β0^+β1^xi 称为回归值或拟合值, e i = y i − y i ^ e_i=y_i-\hat{y_i} ei=yi−yi^是残差。
讨论:离差、残差和误差
这篇博客对离差、残差和误差的区别和联系 做了比较详细的解释。对其做个简单的梳理总结:
- 离差:观测值和平均值之差 d i = y i − y ‾ d_i=y_i-\overline{y} di=yi−y,离差平方和也就是常说的SST。
- 残差:观测值和拟合值之差 e i = y i − y i ^ e_i=y_i-\hat{y_i} ei=yi−yi^,残差平方和也即SSE,也叫和方差。
- 误差:在此处指 ϵ \epsilon ϵ ,它是衡量模型总体性质的一个指标,而与样本无关。误差描述了总体的性质,而残差描述了样本点的性质。
题话外,此处顺便一起介绍几个平方和以及SST的分解。
-
离差平方和 S S T = ∑ i = 1 n ( y i − y ‾ ) 2 SST=\sum\limits_{i=1}^n(y_i-\overline{y})^2 SST=i=1∑n(yi−y)2
-
残差平方和 S S E = ∑ i = 1 n ( y i − y i ^ ) 2 SSE=\sum\limits_{i=1}^n(y_i-\hat{y_i})^2 SSE=i=1∑n(yi−yi^)2
-
回归平方和 S S R = ∑ i = 1 n ( y i ^ − y ‾ ) 2 SSR=\sum\limits_{i=1}^n(\hat{y_i}-\overline{y})^2 SSR=i=1∑n(yi^−y)2
离 差 平 方 和 分 解 定 理 : S S T = S S E + S S R 离差平方和分解定理:SST=SSE+SSR 离差平方和分解定理:SST=SSE+SSR -
均方差:和方差的平均,即和方差除样本数,常作为机器学习中的损失函数。 M S E = 1 n ∑ i = 1 n ( y i − y i ^ ) 2 MSE=\frac{1}{n}\sum\limits_{i=1}^n(y_i-\hat{y_i})^2 MSE=n1i=1∑n(yi−yi^)2
-
均方根:均方差的平方根,也叫回归系统的拟合标准差 R M S E = M S E RMSE=\sqrt{MSE} RMSE=MSE
下面就是最小二乘估计的具体操作,怎么用最小二乘法得到估计值 β 0 ^ , β 1 ^ \hat{\beta_0},\hat{\beta_1} β0^,β1^ 呢?我们理一理思路,这个估计值要令离差平方和最小,那么自然而然想到求导数,导数为0的点就是极值点。
{ ∂ Q ∂ β 0 = − 2 ∑ i = 1 n ( y i − β 0 − β 1 x i ) = 0 ∂ Q ∂ β 1 = − 2 ∑ i = 1 n x i ( y i − β 0 − β 1 x i ) = 0 (8) \begin{cases} \dfrac{\partial{Q}}{\partial{}\beta_0}=-2\sum\limits_{i=1}^n(y_i-\beta_0-\beta_1x_i)=0 \\ \\ \dfrac{\partial{Q}}{\partial{}\beta_1}=-2\sum\limits_{i=1}^nx_i(y_i-\beta_0-\beta_1x_i)=0 \tag{8}\end{cases} ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧∂β0∂Q=−2i=1∑n(yi−β0−β1xi)=0∂β1∂Q=−2i=1∑nxi(yi−β0−β1xi)=0(8)
求解这个方程组得: { β 0 ^ = y ‾ − β 1 ^ x ‾ β 1 ^ = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 (9) \begin{cases} \hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x} \\ \\\hat{\beta_1}=\dfrac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2} \tag{9}\end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧β0^=y−β1^xβ1^=∑i=1n(xi−x)2∑i=1n(xi−x)(yi−y)(9)
到这里参数估计的过程就结束了,进行下一部分之前,再观察一下这些关系式,看看能不能得到其他一些结论。
首先,得到 β 0 ^ , β 1 ^ \hat{\beta_0},\hat{\beta_1} β0^,β1^ 之后,我们的回归直线可以写成 y ^ = β 0 ^ + β 1 ^ x \hat{y}=\hat{\beta_0}+\hat{\beta_1}x y^=β0^+β1^x,把坐标点 ( x ‾ , y ‾ ) (\overline{x},\overline{y}) (x,y) 代入是成立的。这个意思是回归直线通过点 ( x ‾ , y ‾ ) (\overline{x},\overline{y}) (x,y),即样本点的重心。
其次, e i = y i − y i ^ = y i − β 0 − β 1 x i e_i=y_i-\hat{y_i}=y_i-\beta_0-\beta_1x_i ei=yi−yi^=yi−β0−β1xi,由 (8) 不难得到 ∑ i = 1 n e i = 0 \sum\limits_{i=1}^ne_i=0 i=1∑nei=0 。
2.3 最小二乘估计的性质
最小二乘估计是一种点估计的方法,对点估计通常会进行优良性的评判,比如是不是无偏的,是否有效等等,这部分就是做这些工作。
2.3.1 线性性
线性性是指估计量 β 0 ^ , β 1 ^ \hat{\beta_0},\hat{\beta_1} β0^,β1^ 是随机变量 y i y_i yi 的线性函数,所以 β 0 ^ , β 1 ^ \hat{\beta_0},\hat{\beta_1} β0^,β1^ 也是随机变量,也有其概率分布、均值、方差等等。具体怎么看出线性性呢?要进行一点点的推导,我们主要来看 β 1 ^ \hat{\beta_1} β1^:
对于 β 1 ^ = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 \hat{\beta_1}=\dfrac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2} β1^=∑i=1n(xi−x)2∑i=1n(xi−x)(yi−y),其分子可以写成 ∑ i = 1 n ( x i − x ‾ ) y i − ∑ i = 1 n ( x i − x ‾ ) y ‾ \sum\limits_{i=1}^n(x_i-\overline{x})y_i-\sum\limits_{i=1}^n(x_i-\overline{x})\overline{y} i=1∑n(xi−x)yi−i=1∑n(xi−x)y ,而 ∑ i = 1 n ( x i − x ‾ ) y ‾ = 0 \sum\limits_{i=1}^n(x_i-\overline{x})\overline{y}=0 i=1∑n(xi−x)y=0(为什么为0?因为 y ‾ \overline{y} y 是常数/定值,和求和号没关系,可以提到前面去,而 ∑ i = 1 n ( x i − x ‾ ) = ∑ i = 1 n x i − n x ‾ = 0 \sum\limits_{i=1}^n(x_i-\overline{x})=\sum\limits_{i=1}^nx_i-n\overline{x}=0 i=1∑n(xi−x)=i=1∑nxi−nx=0. 所以最终得到: β 1 ^ = ∑ i = 1 n ( x i − x ‾ ) y i ∑ i = 1 n ( x i − x ‾ ) 2 = ∑ i = 1 n x i − x ‾ ∑ i = 1 n ( x i − x ‾ ) 2 y i (10) \hat{\beta_1}=\dfrac{\sum_{i=1}^n(x_i-\overline{x})y_i}{\sum_{i=1}^n(x_i-\overline{x})^2}=\sum_{i=1}^n\dfrac{x_i-\overline{x}}{\sum_{i=1}^n(x_i-\overline{x})^2}y_i \tag{10} β1^=∑i=1n(xi−x)2∑i=1n(xi−x)yi=i=1∑n∑i=1n(xi−x)2xi−xyi(10)所以看出 β 1 ^ \hat{\beta_1} β1^ 是 y i y_i yi 的线性组合。
2.3.2 无偏性
无偏性 若参数 θ \theta θ 的估计量 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn) 满足 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ , 则称 θ ^ \hat{\theta} θ^ 是 θ \theta θ的一个无偏估计量。
无偏性是对估计量的基本要求,具有系统误差为0的特点。也就是说,这个估计量在多次试验的结果中,在待估参数附近随机摆动,并使这个估计量的平均值恰好就是待估参数。在线性回归里的意义是,如果屡次变更数据,反复求 β 0 ^ , β 1 ^ \hat{\beta_0},\hat{\beta_1} β0^,β1^的估计值,这两个估计量没有高估或低估的趋向,反复求得的估计量的平均值将趋向于 β 0 , β 1 \beta_0,\beta_1 β0,β1
下面就要进行数学证明,以
β
1
^
\hat{\beta_1}
β1^ 为例,目标就是要证得
E
(
β
1
^
)
=
β
1
E(\hat{\beta_1})=\beta_1
E(β1^)=β1,因为
x
i
x_i
xi 是非随机变量,所以在(10)的基础上可以得到
E
(
β
1
^
)
=
∑
i
=
1
n
x
i
−
x
‾
∑
i
=
1
n
(
x
i
−
x
‾
)
2
E
(
y
i
)
(11)
E(\hat{\beta_1})=\sum_{i=1}^n\dfrac{x_i-\overline{x}}{\sum_{i=1}^n(x_i-\overline{x})^2}E(y_i) \tag{11}
E(β1^)=i=1∑n∑i=1n(xi−x)2xi−xE(yi)(11) 再由(3)进一步得到
E
(
β
1
^
)
=
∑
i
=
1
n
x
i
−
x
‾
∑
i
=
1
n
(
x
i
−
x
‾
)
2
(
β
0
+
β
1
x
i
)
=
∑
i
=
1
n
(
x
i
−
x
‾
)
(
β
0
+
β
1
x
i
)
∑
i
=
1
n
(
x
i
−
x
‾
)
2
=
∑
i
=
1
n
(
x
i
−
x
‾
)
β
0
+
∑
i
=
1
n
(
x
i
−
x
‾
)
β
1
x
i
∑
i
=
1
n
(
x
i
−
x
‾
)
2
(12)
\begin{aligned} E(\hat{\beta_1}) &=\sum_{i=1}^n\dfrac{x_i-\overline{x}}{\sum_{i=1}^n(x_i-\overline{x})^2}(\beta_0+\beta_1x_i) \\ \\&=\dfrac{\sum_{i=1}^n(x_i-\overline{x})(\beta_0+\beta_1x_i)}{\sum_{i=1}^n(x_i-\overline{x})^2} \\ \\&=\dfrac{\sum_{i=1}^n(x_i-\overline{x})\beta_0+\sum_{i=1}^n(x_i-\overline{x})\beta_1x_i}{\sum_{i=1}^n(x_i-\overline{x})^2} \tag{12}\end{aligned}
E(β1^)=i=1∑n∑i=1n(xi−x)2xi−x(β0+β1xi)=∑i=1n(xi−x)2∑i=1n(xi−x)(β0+β1xi)=∑i=1n(xi−x)2∑i=1n(xi−x)β0+∑i=1n(xi−x)β1xi(12) 而
∑
i
=
1
n
(
x
i
−
x
‾
)
β
0
=
0
\sum_{i=1}^n(x_i-\overline{x})\beta_0=0
∑i=1n(xi−x)β0=0,
∑
(
x
i
−
x
‾
)
x
i
=
∑
(
x
i
−
x
‾
)
2
\sum(x_i-\overline{x})x_i=\sum(x_i-\overline{x})^2
∑(xi−x)xi=∑(xi−x)2,所以
E
(
β
1
^
)
=
β
1
E(\hat{\beta_1})=\beta_1
E(β1^)=β1。
进一步有 : E ( y ^ ) = E ( β 0 ^ + β 1 ^ x ) = β 0 + β 1 x = E ( y ) (13) E(\hat{y})=E(\hat{\beta_0}+\hat{\beta_1}x)=\beta_0+\beta_1x=E(y) \tag{13} E(y^)=E(β0^+β1^x)=β0+β1x=E(y)(13)说明回归值 y ^ \hat{y} y^ 是 E ( y ) E(y) E(y) 的无偏估计, y ^ \hat{y} y^ 与真实值 y y y 的平均值是相同的。
2.3.3 有效性
有效性 : θ 1 ^ \hat{\theta_1} θ1^ 和 θ 2 ^ \hat{\theta_2} θ2^ 都是无偏估计量,如果 D ( θ 1 ^ ) < D ( θ 2 ^ ) D(\hat{\theta_1})<D(\hat{\theta_2}) D(θ1^)<D(θ2^),则 θ 1 ^ \hat{\theta_1} θ1^ 比 θ 2 ^ \hat{\theta_2} θ2^ 有效。也就是说,在期望相等的条件下,方差小的估计的效果更好,因为方差小即随机变量取值的波动程度小,反复抽取容量为 n n n 的样本建立回归方程比较稳定。
那现在看看我们计算得到的估计值
β
0
^
,
β
1
^
\hat{\beta_0},\hat{\beta_1}
β0^,β1^ 的方差具体是什么吧。对(10)两边取方差,且根据(4)可知
D
(
y
i
)
=
σ
2
D(y_i)=\sigma^2
D(yi)=σ2 ,故:
D
(
β
1
^
)
=
∑
i
=
1
n
[
x
i
−
x
‾
∑
i
=
1
n
(
x
i
−
x
‾
)
2
]
2
D
(
y
i
)
=
σ
2
∑
i
=
1
n
(
x
i
−
x
‾
)
2
[
∑
i
=
1
n
(
x
i
−
x
‾
)
2
]
2
=
σ
2
∑
i
=
1
n
(
x
i
−
x
‾
)
2
(14)
\begin{aligned} D(\hat{\beta_1}) & =\sum_{i=1}^n\Big[\dfrac{x_i-\overline{x}}{\sum_{i=1}^n(x_i-\overline{x})^2}\Big]^2D(y_i) \\ &=\sigma^2\sum_{i=1}^n\dfrac{(x_i-\overline{x})^2}{\big[\sum_{i=1}^n(x_i-\overline{x})^2\big]^2} \\ &=\dfrac{\sigma^2}{\sum_{i=1}^n(x_i-\overline{x})^2}\tag{14}\end{aligned}
D(β1^)=i=1∑n[∑i=1n(xi−x)2xi−x]2D(yi)=σ2i=1∑n[∑i=1n(xi−x)2]2(xi−x)2=∑i=1n(xi−x)2σ2(14)
类似的,对
β
0
^
=
y
‾
−
β
1
^
x
‾
\hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x}
β0^=y−β1^x 两端取方差,得到:
D
(
β
0
^
)
=
D
(
y
‾
−
β
1
^
x
‾
)
=
D
(
y
‾
)
+
D
(
β
1
^
x
‾
)
=
σ
2
n
+
x
‾
2
D
(
β
1
^
)
=
[
1
n
+
x
‾
2
∑
i
=
1
n
(
x
i
−
x
‾
)
2
]
σ
2
(15)
\begin{aligned} D(\hat{\beta_0})&=D(\overline{y}-\hat{\beta_1}\overline{x})\\ & =D(\overline{y})+D(\hat{\beta_1}\overline{x}) \\&=\dfrac{\sigma^2}{n}+\overline{x}^2D(\hat{\beta_1}) \\ &=\Big[\frac{1}{n}+\dfrac{\overline{x}^2}{\sum_{i=1}^n(x_i-\overline{x})^2}\Big]\sigma^2 \tag{15}\end{aligned}
D(β0^)=D(y−β1^x)=D(y)+D(β1^x)=nσ2+x2D(β1^)=[n1+∑i=1n(xi−x)2x2]σ2(15) 其中用到了
D
(
y
‾
)
=
D
(
1
n
∑
i
=
1
n
y
i
)
=
1
n
2
D
(
y
1
+
.
.
.
+
y
n
)
=
1
n
2
[
D
(
y
1
)
+
.
.
.
+
D
(
y
n
)
]
=
1
n
2
n
σ
2
=
σ
2
n
D(\overline{y})=D(\frac{1}{n}\sum_{i=1}^ny_i)=\frac{1}{n^2}D(y_1+...+y_n)=\frac{1}{n^2}\big[D(y_1)+...+D(y_n)\big]=\frac{1}{n^2} n\sigma^2=\frac{\sigma^2}{n}
D(y)=D(n1∑i=1nyi)=n21D(y1+...+yn)=n21[D(y1)+...+D(yn)]=n21nσ2=nσ2
从这个表达式中,可以得到对实际应用有指导意义的思想:
- 回归系数 β 1 ^ \hat{\beta_1} β1^ 和随机误差的方差 σ 2 \sigma^2 σ2 有关;
- 回归系数 β 1 ^ \hat{\beta_1} β1^ 还和 x x x 取值波动程度有关,如果 x x x 取值比较分散, 估计值 β 1 ^ \hat{\beta_1} β1^ 就比较稳定;
- 回归常数 β 0 ^ \hat{\beta_0} β0^ 除了和 σ 2 \sigma^2 σ2 以及 x x x 取值波动程度有关之外,还和样本容量 n n n 有关,数据 n n n 越大, D ( β 0 ^ ) D(\hat{\beta_0}) D(β0^) 就越小。
所以,在收集数据时,要使得x的值尽量分散一些,样本量也应尽可能大,否则估计量的稳定性不会太好。
最后,再介绍此处的一个结论:在Gauss-Markov条件下,我们用最小二乘法得到的 β 0 ^ \hat{\beta_0} β0^和 β 1 ^ \hat{\beta_1} β1^ 分别是 β 0 \beta_0 β0 和 β 1 \beta_1 β1 的最佳线性无偏估计(Best linear unbiased estimate, BLUE),即指在 β 0 \beta_0 β0 和 β 1 \beta_1 β1 的一切线性无偏估计中,它们的方差最小。
2.4 显著性检验
求得的回归方程不能马上用,还需要进行检验,看其是否真正描述了y和x之间的统计规律性。进行检验时,通常需要正态性假设 ϵ i ∼ N ( 0 , σ 2 ) \epsilon_i\sim N(0,\sigma^2) ϵi∼N(0,σ2),我们所用的t检验,F检验方法都只适用于正态总体。
2.4.1 对回归系数的显著性检验——t检验
t 分布 : 设 X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X \sim N(0,1),Y\sim \chi^2(n) X∼N(0,1),Y∼χ2(n),且 X X X与 Y Y Y 相互独立,则称 t = X Y / n t=\dfrac{X}{\sqrt{Y/n}} t=Y/nX 服从自由度为 n 的 t 分布。

t 检验即构造的统计量服从 t 分布的假设检验。t检验的前提是要求样本服从正态分布或近似正态分布。在回归分析中,t 检验用于检验回归系数的显著性,即自变量对因变量的影响程度是否显著。
(1)原假设:
H
0
:
β
1
=
0
H_0:\beta_1=0
H0:β1=0,备择假设:
H
1
:
β
1
≠
0
H_1:\beta_1\neq0
H1:β1=0
(2)构造t统计量:
β
1
^
σ
^
2
/
L
x
x
∼
t
(
n
−
2
)
\dfrac{\hat{\beta_1}}{\sqrt{\hat{\sigma}^2/L_{xx}}}\sim t(n-2)
σ^2/Lxxβ1^∼t(n−2) 其中
L
x
x
=
∑
i
=
1
n
(
x
i
−
x
‾
)
2
,
σ
^
2
=
1
n
−
2
∑
i
=
1
n
(
y
i
−
y
i
^
)
2
L_{xx}=\sum\limits_{i=1}^n(x_i-\overline{x})^2,\hat{\sigma}^2=\frac{1}{n-2}\sum\limits_{i=1}^n(y_i-\hat{y_i})^2
Lxx=i=1∑n(xi−x)2,σ^2=n−21i=1∑n(yi−yi^)2
(3)给定显著性水平
α
\alpha
α ,双侧检验的临界值
t
α
/
2
t_{\alpha/2}
tα/2
(4)计算统计量的值,当统计量的值
∣
t
∣
≥
t
α
/
2
|t|\geq t_{\alpha/2}
∣t∣≥tα/2,落入拒绝域,拒绝原假设,认为
β
1
\beta_1
β1 显著不为0 ,因变量
y
y
y 对自变量
x
x
x 的一元线性回归成立。
2.4.2 对回归方程的显著性检验——F检验
F分布: 设 X ∼ χ 2 ( n ) , Y ∼ χ 2 ( m ) X \sim \chi^2(n),Y\sim \chi^2(m) X∼χ2(n),Y∼χ2(m) ,且 X X X与 Y Y Y 相互独立,则称 F = X / n Y / m F=\dfrac{X/n}{Y/m} F=Y/mX/n 服从自由度为 n,m 的 F 分布。它是两个服从卡方分布的独立随机变量各除以其自由度后的比值的抽样分布,是一种非对称分布,且位置不可互换。F分布有着广泛的应用,如在方差分析、回归方程的显著性检验中都有着重要的地位。

F检验就是构造的统计量服从F分布的假设检验。在回归分析中,F检验根据平方和分解式,直接从回归效果检验回归方程显著性。 S S T = S S R + S S E ∑ i = 1 n ( y i − y ‾ ) 2 = ∑ i = 1 n ( y i ^ − y ‾ ) 2 + ∑ i = 1 n ( y i − y i ^ ) 2 \begin{aligned} SST &=SSR+SSE \\ \sum_{i=1}^n(y_i-\overline{y})^2&=\sum_{i=1}^n(\hat{y_i}-\overline{y})^2+\sum_{i=1}^n(y_i-\hat{y_i})^2\end{aligned} SSTi=1∑n(yi−y)2=SSR+SSE=i=1∑n(yi^−y)2+i=1∑n(yi−yi^)2 总平方和SST反应因变量的波动程度或不确定性;SSR是由回归方程确定的,是由自变量 x x x 的波动引起的;SSE是不能用自变量解释的波动,是由 x x x 之外未加控制的因素引起的。
这样,就将总平方和SST分解为由自变量解释的部分和不能用自变量解释的部分,那么自变量可以解释的部分SSR占比越大,说明回归方程效果越好。据此构造F统计量:
(1)原假设:
H
0
:
β
1
=
0
H_0:\beta_1=0
H0:β1=0,备择假设:
H
1
:
β
1
≠
0
H_1:\beta_1\neq0
H1:β1=0
(2)构造F统计量:
S
S
R
/
1
S
S
E
/
(
n
−
2
)
∼
F
(
1
,
n
−
2
)
\frac{SSR/1}{SSE/(n-2)}\sim F(1,n-2)
SSE/(n−2)SSR/1∼F(1,n−2)
(3)给定显著性水平
α
\alpha
α ,单侧检验的临界值
F
α
F_{\alpha}
Fα
(4)计算统计量的值,当统计量的值
F
>
F
α
F>F_{\alpha}
F>Fα,落入拒绝域,拒绝原假设,认为回归方程显著。
此处的原假设看似和回归系数的检验相同,但这只是一元线性回归的特殊情况,例如多元线性回归F检验的原假设应为 H 0 : β 1 = β 2 = . . . = β n = 0 H_0:\beta_1=\beta_2=...=\beta_n=0 H0:β1=β2=...=βn=0
2.4.3 样本决定系数
从上面也可以知道,回归平方和所占的比重越大说明线性回归效果越好,回归直线和样本观测值的拟合优度越好,因此构造了一个参数叫样本决定系数,直接反映回归平方和和总离差平方和之比。 R 2 = S S R S S T = ∑ i = 1 n ( y i ^ − y ‾ ) 2 ∑ i = 1 n ( y i − y ‾ ) 2 (16) R^2=\frac{SSR}{SST}=\dfrac{\sum_{i=1}^n(\hat{y_i}-\overline{y})^2}{\sum_{i=1}^n(y_i-\overline{y})^2} \tag{16} R2=SSTSSR=∑i=1n(yi−y)2∑i=1n(yi^−y)2(16) R 2 R^2 R2就是R-square,它的值总是在0-1之间,越接近于1,拟合优度越好。(通过一些推导可以看出 R R R 实际上是x和y的相关系数)
3. 多元线性回归
3.1 模型建立
随机变量 y y y 与一般变量 x 1 , x 2 , . . . , x p x_1,x_2,...,x_p x1,x2,...,xp 的线性回归模型为 y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β p x p + ϵ (17) y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p+\epsilon \tag{17} y=β0+β1x1+β2x2+...+βpxp+ϵ(17) 其中, p = 1 p=1 p=1时就是上面介绍的一元线性回归。同样地,假定 E ( ϵ ) = 0 , D ( ϵ ) = σ 2 E(\epsilon)=0,D(\epsilon)=\sigma^2 E(ϵ)=0,D(ϵ)=σ2,称 E ( y ) = β 0 + β 1 x 1 + β 2 x 2 + . . . + β p x p + ϵ (18) E(y)=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p+\epsilon \tag{18} E(y)=β0+β1x1+β2x2+...+βpxp+ϵ(18)为理论回归方程。
有
n
n
n 组观测数据,则线性回归模型可表示为
{
y
1
=
β
0
+
β
1
x
11
+
β
2
x
12
+
.
.
.
+
β
p
x
1
p
+
ϵ
1
y
2
=
β
0
+
β
1
x
21
+
β
2
x
22
+
.
.
.
+
β
p
x
2
p
+
ϵ
2
…
…
y
n
=
β
0
+
β
1
x
n
1
+
β
2
x
n
2
+
.
.
.
+
β
p
x
n
p
+
ϵ
n
(19)
\begin{cases} y_1=\beta_0+\beta_1x_{11}+\beta_2x_{12}+...+\beta_px_{1p}+\epsilon_1 \\ y_2=\beta_0+\beta_1x_{21}+\beta_2x_{22}+...+\beta_px_{2p}+\epsilon_2\\……\\y_n=\beta_0+\beta_1x_{n1}+\beta_2x_{n2}+...+\beta_px_{np}+\epsilon_n \tag{19}\end{cases}
⎩⎪⎪⎪⎨⎪⎪⎪⎧y1=β0+β1x11+β2x12+...+βpx1p+ϵ1y2=β0+β1x21+β2x22+...+βpx2p+ϵ2……yn=β0+β1xn1+β2xn2+...+βpxnp+ϵn(19) 写成矩阵形式为
y
=
X
β
+
ϵ
(20)
\boldsymbol y=\boldsymbol X \boldsymbol{\beta}+\boldsymbol\epsilon \tag{20}
y=Xβ+ϵ(20) 其中, 矩阵
X
\boldsymbol X
X 是
n
×
(
p
+
1
)
n×(p+1)
n×(p+1) 矩阵,也叫设计矩阵或资料矩阵:
y
=
(
y
1
y
2
.
.
.
y
n
)
X
=
(
1
x
11
x
12
.
.
.
x
1
p
1
x
21
x
22
.
.
.
x
2
p
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
x
n
1
x
n
2
.
.
.
x
n
p
)
β
=
(
β
1
β
2
.
.
.
β
p
)
ϵ
=
(
ϵ
1
ϵ
2
.
.
.
ϵ
n
)
\boldsymbol y= \begin{gathered} \begin{pmatrix} y_1 \\ y_2 \\ ...\\ y_n \end{pmatrix} \quad \boldsymbol X=\begin{pmatrix} 1&x_{11}&x_{12}&...&x_{1p} \\ 1&x_{21}&x_{22}&...&x_{2p} \\ ...&...&...&...&...\\ 1&x_{n1}&x_{n2}&...&x_{np} \end{pmatrix} \quad \boldsymbol \beta=\begin{pmatrix} \beta_1 \\ \beta_2 \\ ...\\ \beta_p \end{pmatrix} \quad \boldsymbol \epsilon=\begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ ...\\ \epsilon_n \end{pmatrix} \end{gathered}
y=⎝⎜⎜⎛y1y2...yn⎠⎟⎟⎞X=⎝⎜⎜⎛11...1x11x21...xn1x12x22...xn2............x1px2p...xnp⎠⎟⎟⎞β=⎝⎜⎜⎛β1β2...βp⎠⎟⎟⎞ϵ=⎝⎜⎜⎛ϵ1ϵ2...ϵn⎠⎟⎟⎞
3.2 基本假定
和一元线性回归一样,多元线性回归也要进行一些假定,这些假定是一元情况的拓展和延伸,这些假定主要都是为了方便地进行参数估计。
- x 1 , . . . , x p x_1,...,x_p x1,...,xp 是确定性变量,不是随机变量;
- 解释变量之间不相关,样本容量个数大于解释变量个数,即 X \boldsymbol X X的秩为 p+1<n;
- G a u s s − M a r k o v 条 件 { E ( ϵ i ) = 0 , i = 1 , 2 , . . . , n C o v ( ϵ i , ϵ j ) = { σ 2 , i = j 0 , i = j ( i , j = 1 , 2 , . . . n ) Gauss-Markov条件\begin{cases} E(\epsilon_i)=0, i=1,2,...,n\\ \\Cov(\epsilon_i,\epsilon_j)=\begin{cases} \sigma^2,i=j\\0,i=j\end{cases}(i,j=1,2,...n) \end{cases} Gauss−Markov条件⎩⎪⎪⎪⎨⎪⎪⎪⎧E(ϵi)=0,i=1,2,...,nCov(ϵi,ϵj)={σ2,i=j0,i=j(i,j=1,2,...n)
- 正态分布的假定条件 { ϵ i ∼ N ( 0 , σ 2 ) ϵ 1 , ϵ 2 , . . . , ϵ n 相 互 独 立 \begin{cases}\epsilon_i\sim N(0,\sigma^2)\\ \\\epsilon_1,\epsilon_2,...,\epsilon_n相互独立\end{cases} ⎩⎪⎨⎪⎧ϵi∼N(0,σ2)ϵ1,ϵ2,...,ϵn相互独立
如果不满足这些条件,可能会导致自相关性、异方差性等等问题,从而使得模型效果比较差,对于回归模型问题的诊断,后续也会进行介绍。
3.3 最小二乘参数估计
多元线性回归的未知参数的估计和一元情况的原理一样,仍然采用最小二乘法,寻找参数 β 0 , β 1 , . . . , β p \beta_0,\beta_1,...,\beta_p β0,β1,...,βp 的估计值 β 0 ^ , β 1 ^ , . . . , β p ^ \hat{\beta_0},\hat{\beta_1},...,\hat{\beta_p} β0^,β1^,...,βp^使离差平方和最小。 Q ( β 0 ^ , β 1 ^ , . . . , β p ^ ) = ∑ i = 1 n ( y i − β 0 ^ − β 1 ^ x i 1 − . . . − β p ^ x i p ) 2 Q(\hat{\beta_0},\hat{\beta_1},...,\hat{\beta_p})=\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1}x_{i1}-...-\hat{\beta_p}x_{ip})^2 Q(β0^,β1^,...,βp^)=i=1∑n(yi−β0^−β1^xi1−...−βp^xip)2 现在要做的就是求极值,由于Q是关于 β 0 ^ , β 1 ^ , . . . , β p ^ \hat{\beta_0},\hat{\beta_1},...,\hat{\beta_p} β0^,β1^,...,βp^的非负二次函数,因而它的最小值总是存在,求Q对于每一个未知参数的偏导,再令偏导数为0,得到各未知参数的估计值。称 y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 + . . . + β p ^ x p (21) \hat{y}=\hat{\beta_0}+\hat{\beta_1}x_1+\hat{\beta_2}x_2+...+\hat{\beta_p}x_p \tag{21} y^=β0^+β1^x1+β2^x2+...+βp^xp(21)为经验回归方程。
3.4 显著性检验
在应用回归分析的时候,我们往往不能确定 y y y 和 x 1 , x 2 , . . . , x p x_1,x_2,...,x_p x1,x2,...,xp之间的线性关系,只是先进行这样的假设,求出回归方程后,还需要对方程显著性进行检验。
3.4.1 回归方程的显著性检验——F检验
F检验从整体上看自变量 x 1 , x 2 , . . . , x p x_1,x_2,...,x_p x1,x2,...,xp是否对随机变量 y y y 有明显影响。提出的原假设为: H 0 : β 1 = β 2 = . . . = β n = 0 H_0:\beta_1=\beta_2=...=\beta_n=0 H0:β1=β2=...=βn=0,如果最后拒绝原假设,说明回归方程是显著的,自变量全体对因变量 y y y 产生线性影响。
3.4.2 回归系数的显著性检验——t检验
回归方程是显著的也并不意味着每个自变量对y的影响都显著,所以需要对每个自变量进行显著性检验,继而提出那些次要的,可有可无的变量。
对于自变量 x j x_j xj 的检验的原假设 H 0 : β j = 0 H_0:\beta_j=0 H0:βj=0,如果接受原假设,说明 x j x_j xj 对y的影响不显著,否则说明 x j x_j xj 是显著的。
如果一个自变量是不显著的,就要对方程进行修正。一种简单的剔除多余变量的做法叫“后退法”。后退法是说,如果有多个自变量对因变量无显著影响,由于自变量之间的相互作用,不能一次全部剔除,一般先剔除 p值最大的,然后重新求得新的回归方程,在对新方程进行检验,若有不显著变量再剔除,直到保留的变量都对y有显著影响为止
3.4.3 拟合优度
和一元线性回归中的样本决定系数一样,定义样本决定系数: R 2 = S S R S S T = 1 − S S E S S T (22) R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST} \tag{22} R2=SSTSSR=1−SSTSSE(22)样本决定系数相较于F检验可以更清楚直观地反映拟合效果,但不能作为严格的显著性检验。 R = R 2 (23) R=\sqrt{R^2} \tag{23} R=R2(23) 称 R R R为 y y y 关于 x 1 , x 2 , . . . , x p x_1,x_2,...,x_p x1,x2,...,xp的样本复相关系数,与简单相关系数的不同是,复相关系数只取正值,在实际应用中常常用来衡量作为一个整体的 x 1 , x 2 , . . . , x p x_1,x_2,...,x_p x1,x2,...,xp与 y y y 线性关系的大小。具体 R 2 R^2 R2或 R R R需要达到多少才算通过拟合优度检验,这要视具体情况而定。
4. 其他事项
4.1 中心化
中心化,包括后面的标准化都是对原始数据进行一些处理,从而方便计算,尽量避免大的误差。中心化就是将样本点的中心移到坐标系原点,从而去掉参数 β 0 \beta_0 β0.
样本中心表示为 ( x 1 ‾ , x 2 ‾ , . . . , x p ‾ ; y ‾ ) (\overline{x_1},\overline{x_2},...,\overline{x_p};\overline{y}) (x1,x2,...,xp;y),通过坐标变换将坐标原点移至样本重心: x i j ′ = x i j − x ‾ j y i ′ = y i − y ‾ (24) x_{ij}^{'}=x_{ij}-\overline{x}_j \\ y_i^{'}=y_i-\overline{y} \tag{24} xij′=xij−xjyi′=yi−y(24) 称 y ^ ′ = β 1 ^ x 1 ′ + β 2 ^ x 2 ′ + . . . + β p ^ x p ′ (25) \hat{y}^{'}=\hat{\beta_1}x_1^{'}+\hat{\beta_2}x_2^{'}+...+\hat{\beta_p}x_p^{'}\tag{25} y^′=β1^x1′+β2^x2′+...+βp^xp′(25)为中心化经验回归方程,其常数项为0,而回归系数的最小二乘估计值均不变,因为这种变换实际上是坐标系平移变换,只改变直线的截距而不改变斜率。
4.2 标准化
标准化是为了消除量纲不同和数量级差异所带来的影响,在机器学习中也经常在数据预处理阶段进行标准化,将所有特征的值转化到同样的小区间中。其公式如下: x i j ∗ = x i j − x ‾ j ∑ i = 1 n ( x i j − x ‾ j ) 2 (26) x_{ij}^*=\dfrac{x_{ij}-\overline{x}_j}{\sqrt{\sum_{i=1}^n(x_{ij}-\overline{x}_j)^2}} \tag{26} xij∗=∑i=1n(xij−xj)2xij−xj(26) y i ∗ = y i − y ‾ ∑ i = 1 n ( y i − y ‾ ) 2 (27) y_i^*=\dfrac{y_i-\overline{y}}{\sum_{i=1}^n\sqrt{(y_i-\overline{y})^2}} \tag{27} yi∗=∑i=1n(yi−y)2yi−y(27) 并将标准化数据的经验回归方程记为: y ^ ∗ = β ^ 1 ∗ x 1 ∗ + β ^ 2 ∗ x 2 ∗ + . . . + β ^ p ∗ x p ∗ (28) \hat{y}^*=\hat{\beta}_1^*x_1^*+\hat{\beta}_2^*x_2^*+...+\hat{\beta}_p^*x_p^* \tag{28} y^∗=β^1∗x1∗+β^2∗x2∗+...+β^p∗xp∗(28) 标准化包括了中心化,因而标准化的回归常数项也为0.
普通的回归系数不具备可比性,举例来说,有一回归方程为 y ^ = 200 + 2000 x 1 + 2 x 2 \hat{y}=200+2000x_1+2x_2 y^=200+2000x1+2x2,并不能认为 x 1 x_1 x1 对 y y y 的影响最显著,而有了标准化回归系数,就可以方便地对变量间的相对重要性进行比较了。一般的统计软件都会自动给出标准化回归系数,并成为贝塔(beta)值。