统计学|线性回归模型总结

前言
本科期间已经系统的学习过线性回归模型,奈何本菜鸡记性太差,每次用到还要重新找资料。。。近期,由于研究需要,又重新把线性回归模型学了一遍,也有了更深的理解,借此机会,系统性的总结一遍,免得用的时候又到处找资料。

一元线性回归模型

模型及基本假设

对于具有线性关系的两个随机变量,可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖自变量x和误差项 ε \varepsilon ε的方程就称为回归模型。一元回归模型可表示为:
y = β 0 + β 1 x + ε y=\beta_{0}+\beta_{1}x+\varepsilon y=β0+β1x+ε
其中,误差项 ε \varepsilon ε包含遗漏的其他因素,变量的测量误差、回归函数的设定误差以及人类行为的内在随机性等。

线性回归模型的基本假设有:
(1) E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0
(2) V a r ( ε i ) = V a r ( ε j ) = σ 2 Var(\varepsilon_{i})=Var(\varepsilon_{j})=\sigma^2 Var(εi)=Var(εj)=σ2
(3) C o v ( ε i , ε j ) = 0 Cov(\varepsilon_{i},\varepsilon_{j})=0 Cov(εi,εj)=0
(4) ε ∼ N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma^2) εN(0,σ2)

根据回归模型中的假定,有 E ( y ) = β 0 + β 1 x E(y)=\beta_{0}+\beta_{1}x E(y)=β0+β1x,即y的期望值是x的线性函数,称此式为一元线性回归方程。

对于以上线性回归模型,考虑的统计推断问题为:
(1)对于未知参数 β 0 , β 1 , σ 2 \beta_{0},\beta_{1},\sigma^2 β0,β1,σ2进行估计;
(2)对关于 β 0 , β 1 \beta_{0},\beta_{1} β0,β1的某种假设,以及y服从线性模型的假设进行检验;
(3)对y进行预测和控制。

最小二乘法

普通最小二乘法(Ordiany Least Squares, OLS)就是选择使得残差平方和最小的 β 0 、 β 1 \beta_{0}、\beta_{1} β0β1
m i n ∑ i = 1 n e i 2 = ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 min \sum_{i=1}^{n}e_{i}^2=\sum_{i=1}^{n}(y_{i}-\beta_{0}-\beta_{1}x_{i})^2 mini=1nei2=i=1n(yiβ0β1xi)2
分别对 β 0 、 β 1 \beta_{0}、\beta_{1} β0β1求偏导,并联立方程组,求得:
β 0 ^ = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ; β 1 ^ = y ˉ − β 0 ^ x ˉ \hat{\beta_{0}}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}; \hat{\beta_{1}}=\bar{y}-\hat{\beta_{0}}\bar{x} β0^=i=1n(xixˉ)2i=1n(xixˉ)(yiyˉ)β1^=yˉβ0^xˉ

OLS估计量的性质

无偏性,一致性,最小方差性
β 0 ^ 、 β 1 ^ \hat{\beta_{0}}、\hat{\beta_{1}} β0^β1^ β 0 、 β 1 \beta_{0}、\beta_{1} β0β1的最佳线性无偏估计量(BLUE);

残差项的正交性

1.残差向量与所有解释变量( 1 ′ , x ′ 1',x' 1,x)正交,即
1 ′ e = 0 , x ′ e = 0 1'e=0, x'e=0 1e=0,xe=0

∑ i = 1 n e i = 0 , ∑ i = 1 n e i x i = 0 \sum_{i=1}^{n} e_{i}=0, \sum_{i=1}^{n} e_{i} x_{i}=0 i=1nei=0,i=1neixi=0

(由OLS求解过程中建立的方程组可得)
2.残差向量与拟合值向量 y ^ \hat{y} y^ 正交
∑ y i ^ e i = ∑ ( β 0 ^ + β ^ 1 x i ) e i = 0 \sum \hat{y_{i}} e_{i}=\sum (\hat{\beta_{0}}+\hat{\beta}_{1} x_{i}) e_{i}=0 yi^ei=(β0^+β^1xi)ei=0

判定系数

1.平方和分解公式
TSS (Total Sum of Squares)= ∑ i = 1 n ( y i − y ˉ ) 2 \sum_{i=1}^{n}(y_{i}-\bar{y})^2 i=1n(yiyˉ)2
ESS (Explained Sum of Squares)= ∑ i = 1 n ( y i ^ − y ˉ ) 2 \sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^2 i=1n(yi^yˉ)2
RSS (Residual Sum of Squares)= ∑ i = 1 n e i 2 \sum_{i=1}^{n}e_{i}^2 i=1nei2
T S S = E S S + R S S TSS=ESS+RSS TSS=ESS+RSS
2.拟合优度(判定系数、可决系数)
R 2 = ∑ ( y i ^ − y ˉ ) 2 ∑ ( y i − y ˉ ) 2 = 1 − ∑ e i 2 ∑ ( y i − y ˉ ) 2 R^2=\frac{\sum(\hat{y_{i}}-\bar{y})^2}{\sum(y_{i}-\bar{y})^2}=1-\frac{\sum e_{i}^2}{\sum(y_{i}-\bar{y})^2} R2=(yiyˉ)2(yi^yˉ)2=1(yiyˉ)2ei2
3.相关系数
C o r r ( y i − y i ^ ) = ∑ ( y i − y ˉ ) ( y i ^ − y ˉ ) ∑ ( y i − y ˉ ) 2 ∑ ( y i ^ − y ˉ ) 2 Corr(y_{i}-\hat{y_{i}})=\frac{\sum (y_{i}-\bar{y})(\hat{y_{i}}-\bar{y})}{\sum(y_{i}-\bar{y})^2 \sum(\hat{y_{i}}-\bar{y})^2} Corr(yiyi^)=(yiyˉ)2(yi^yˉ)2(yiyˉ)(yi^yˉ)
注: 拟合优度等于 y i − y i ^ y_{i}-\hat{y_{i}} yiyi^之间相关系数的平方

假设检验

1. β 0 ^ , β 1 ^ \hat{\beta_{0}},\hat{\beta_{1}} β0^β1^的概率分布
在这里插入图片描述

2. t t t检验
H 0 : β 1 = 0 ⟷ H 1 : β 1 ≠ 0 H_{0}:\beta_{1}=0\longleftrightarrow H_{1}:\beta_{1}\neq 0 H0:β1=0H1:β1=0
构建检验统计量:
t = ( β 1 ^ − β 1 ) / [ σ / ∑ ( x i − x ˉ ) 2 ] S S E / ( n − 2 ) σ 2 = β 1 ^ − β 1 S β 1 ^ ∼ t ( n − 2 ) t=\frac{(\hat{\beta_{1}}-\beta_{1})/[\sigma /\sqrt{\sum(x_{i}-\bar{x})^2}]}{\sqrt{SSE/(n-2)\sigma^2}}=\frac{\hat{\beta_{1}}-\beta_{1}}{S_{\hat{\beta_{1}}}} \sim t(n-2) t=SSE/(n2)σ2 (β1^β1)/[σ/(xixˉ)2 ]=Sβ1^β1^β1t(n2)
拒绝法则:
(1)P值:P值 ≤ α \le α α,则拒绝 H 0 H_{0} H0
(2)临界值法:若 t ≤ − t α / 2 t\le-t_{\alpha /2} ttα/2 t ≥ t α / 2 t\ge t_{\alpha/2} ttα/2,则拒绝 H 0 H_{0} H0
3.第I类错误和第II类错误

4.F检验
H 0 : β 1 = 0 ⟷ H 1 : β 1 ≠ 0 H_{0}:\beta_{1}=0 \longleftrightarrow H_{1}:\beta_{1}\neq 0 H0:β1=0H1:β1=0
构造检验统计量:
F = M S R M S E = S S R / 1 S S E / ( n − 2 ) ∼ F ( 1 , n − 2 ) F=\frac{MSR}{MSE}=\frac{SSR/1}{SSE/(n-2)}\sim F(1,n-2) F=MSEMSR=SSE/(n2)SSR/1F(1,n2)
拒绝法则同上。

注:
(1)拒绝 H 0 H_{0} H0只能得到x和y之间存在显著性关系,并不意味着x与y的因果关系和线性关系;
(2)显著性检验仅仅能说明在x的样本观测范围内,x和y是相关的,而且这个线性关系只是在x的样本观测值范围里,解释了y的变异性的显著部分。

估计和预测

  1. y ^ \hat{y} y^可以被用作y的平均值(E(y))的一个点估计
    若令 x ∗ x^* x为自变量x的给定值, y ∗ y^{*} y x = x ∗ x=x^* x=x时,y的可能值(是一个随机变量), E ( y ∗ ) E(y^*) E(y) x = x ∗ x=x^* x=x时,因变量y的平均值或期望值; y ^ ∗ = β 0 ^ + β 1 x ∗ \hat{y}^*=\hat{\beta_{0}}+\beta_{1}x^* y^=β0^+β1x x = x ∗ x=x^* x=x时, E ( y ∗ ) E(y^*) E(y)的点估计值和 y ∗ y^* y的一个预测值。

2.置信区间( E ( y ∗ ) E(y^*) E(y)的区间估计)
在这里插入图片描述
3.预测区间( y ∗ y^* y的区间估计)
在这里插入图片描述

多元线性回归模型

模型及古典模型假设

1.一般的多元线性回归模型可写为
y i = β 1 x i 1 + β 2 x i 2 + . . . + β K x i K + ϵ i = X β + ϵ y_{i}=\beta_{1}x_{i1}+\beta_{2}x_{i2}+...+\beta_{K}x_{iK}+\epsilon_{i} =X \beta+\epsilon yi=β1xi1+β2xi2+...+βKxiK+ϵi=+ϵ
2. 模型假设
(1)线性假定:
总体模型如上式,线性假设的含义是每个解释变量对 y t y_{t} yt的边际效应为常数。
(2)严格外生性
E ( ϵ i ∣ X ) = E ( ϵ i ∣ x 1 , . . . , x n ) = 0 , ( i = 1 , 2 , . . . , n ) E(\epsilon_{i}|X)=E(\epsilon_{i}|x_{1},...,x_{n})=0, (i=1,2,...,n) E(ϵiX)=E(ϵix1,...,xn)=0,(i=1,2,...,n)
ϵ i \epsilon_{i} ϵi均值独立于所有解释变量的观测数据,而不仅仅是同一观测数据 x i x_{i} xi中的解释变量。
(3)不存在“严格多重共线性”,即数据矩阵X列满秩。
(4)球形扰动项,即扰动项满足同方差、无自相关, 所以 ϵ \epsilon ϵ的协方差矩阵满足:
V a r ( ϵ ∣ X ) = σ 2 I n Var(\epsilon|X)=\sigma^2 I_{n} Var(ϵX)=σ2In
(5)在给定X的情况下, ϵ ∣ X \epsilon|X ϵX服从正态分布,即 ϵ ∣ X ∼ N ( 0 , σ 2 I n ) \epsilon|X \sim N(0,\sigma^2 I_{n}) ϵXN(0,σ2In).

OLS估计量

β 1 , β 2 , . . . , β K \beta_{1}, \beta_{2},..., \beta_{K} β1,β2,...,βK分别求偏导得:
β ^ = ( X ′ X ) − 1 X ′ y \hat{\boldsymbol{\beta}}=(X'X)^{-1}X'y β^=(XX)1Xy

OLS的小样本性质

小样本性质指,无论样本容量多少,这些性质都成立。根据以上古典模型假设,有:
在这里插入图片描述在这里插入图片描述

小样本下的统计推断

- 对单个系数的t检验
同一元回归
- F检验
(1)根据沃尔德检验原理
对于多元线性回归,原假设为:
H 0 : β 2 = . . . = β K = 0 H_{0}:\beta_{2}=...=\beta_{K}=0 H0:β2=...=βK=0
写成向量形式,即为:
H 0 : R β = r H_{0}:\boldsymbol{R \beta=r} H0:=r
其中r为(K-1)维列向量, R为(K-1)*K维矩阵,且rank(R)=K-1.
根据沃尔德检验原理,由于 β ^ \hat{\beta} β^ β \beta β的估计量,故如果H0成立,则 ( R β ^ − r ) (\boldsymbol{R\hat{\beta}-r}) (Rβ^r)应该比较接近于零向量,这种接近程度可用其二次型来衡量:
( R β ^ − r ) ′ [ V a r ( R β ^ − r ) ] − 1 ( R β ^ − r ) (\boldsymbol{R\hat{\beta}-r})'[Var(\boldsymbol{R\hat{\beta}}-r)]^{-1}(\boldsymbol{R\hat{\beta}}-r) (Rβ^r)[Var(Rβ^r)]1(Rβ^r)
其中
V a r ( R β ^ − r ) = V a r ( R β ^ ) = R V a r ( β ^ ) R ′ = σ 2 R ( X ′ X ) − 1 R ′ \begin{aligned} Var(\boldsymbol{R\hat{\beta}}-r)=Var(\boldsymbol{R\hat{\beta}}) =\boldsymbol{RVar(\hat{\beta})R'} =\sigma^2 \boldsymbol{R(X'X)^-1 R'} \end{aligned} Var(Rβ^r)=Var(Rβ^)=RVar(β^)R=σ2R(XX)1R
定理: 在假设5.1-5.5均满足,且原假设也成立的情况下,则F统计量服从自由度为(m,n-K)的F分布:
F = ( R β ^ − r ) ′ [ R ( X ′ X ) − 1 R ′ ] − 1 ( R β ^ − r ) / m s 2 ∼ F ( m , n − K ) F=\frac{\boldsymbol{(R\hat{\beta}-r)'[R(X'X)^{-1} R']^{-1}(R\hat{\beta}-r)}/m}{s^2} \sim F(m,n-K) F=s2(Rβ^r)[R(XX)1R]1(Rβ^r)/mF(m,nK)
(2)似然比原理表达式
考虑以下约束极值问题:
m i n β ^ S S R ( β ^ ) , s . t . R β ^ = r min_{\hat{\beta}} SSR(\boldsymbol{\hat{\beta}}), s.t. \boldsymbol{R\hat{\beta}=r} minβ^SSR(β^),s.t.Rβ^=r
记有约束回归的残差平方和为SSR *,无约束回归的残差平方和为SSR,在H0成立时, ( S S R ∗ − S S R ) (SSR^{*}-SSR) (SSRSSR)不应很大,因此有:
F = ( S S R ∗ − S S R ) / ( K − 1 ) S S R / ( n − K ) F=\frac{(SSR^{*}-SSR)/(K-1)}{SSR/(n-K)} F=SSR/(nK)(SSRSSR)/(K1)
(3)借助平方和分解公式
如果原假设 H 0 H_{0} H0成立,则
M S R = S S R / ( K − 1 ) , M S E = S S E / ( n − K ) MSR=SSR/(K-1), MSE=SSE/(n-K) MSR=SSR/(K1),MSE=SSE/(nK)
σ 2 \sigma^{2} σ2的两个独立估计量,因此,它们的比值应该接近1。构造检验统计量如下:
F = S S R / ( K − 1 ) S S E / ( n − K ) ∼ F ( K − 1 , n − K ) F=\frac{SSR /(K-1)}{SSE/(n-K)} \sim F(K-1,n-K) F=SSE/(nK)SSR/(K1)F(K1,nK)

大样本OLS

1.为何要发展大样本理论?
(1)小样本理论的假设过强

  • 严格外生性假设意味着解释变量与所有的扰动项均正交;
  • 小样本理论假设扰动项为正态分布,而现实中可能服从任何分布。

(2)在小样本理论的框架下,必须研究统计量的精确分布
(3)使用大样本理论的代价是要求样本容量大

2.OLS的大样本性质
(1) β ^ \hat{\beta} β^为一致估计量

  1. 定义: 考虑参数 β \beta β的估计量 β n ^ \hat{\beta_{n}} βn^,其中下标n表示样本容量,如果 β n ^ \hat{\beta_{n}} βn^依概率收敛到 β \beta β,则称 β n ^ \hat{\beta_{n}} βn^ β \beta β的一致估计量。
    2. 证明过程如下:
    在这里插入图片描述
    (2) β ^ \hat{\beta} β^服从渐近正态分布
    (a)定义:如果 n ( β ^ n − β ) → N ( 0 , σ 2 ) \sqrt{n}(\hat{\beta}_{n}-\beta)\rightarrow N(0,\sigma^2) n (β^nβ)N(0,σ2),则称 β n ^ \hat{\beta_{n}} βn^为渐近正态,称 σ 2 \sigma^2 σ2为其渐近方差,记为 A v a r ( β ^ n ) Avar(\hat{\beta}_{n}) Avar(β^n)
    (b)渐近协方差矩阵 的表达式为:
    在这里插入图片描述

大样本统计推断

在这里插入图片描述

参考书目

【1】 陈强,计量经济学及Stata应用,高等教育出版社.
【2】贾俊平,何晓群,金勇进, 统计学,中国人民大学出版社.
【3】戴维 安德森,丹尼斯 斯威尼,商务与经济统计(第十三版)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值