OLS估计
相关系数
ρ X Y = c o v ( X , Y ) σ X σ Y = X ⋅ Y ∣ ∣ X ∣ ∣ ⋅ ∣ ∣ Y ∣ ∣ \rho_{XY}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}=\frac{\bold{X\cdot Y}}{\bold{||X||\cdot||Y||}} ρXY=σXσYcov(X,Y)=∣∣X∣∣⋅∣∣Y∣∣X⋅Y
在一元OLS回归下,有 ρ X Y = R 2 \rho_{XY}=R^2 ρXY=R2
一般形式
Y i = β 0 + β 1 X i + u i Y_i=\beta_0+\beta_1X_i +u_i Yi=β0+β1Xi+ui
Y i = β T X 1 i + u i \bold{Y}_i=\bold{\beta}^T\bold{X}_{1i} +\bold u_i Yi=βTX1i+ui
估计量
推导不考(不过推导也简单,即 M S E MSE MSE最小,其表达式偏导为0)
β ^ 1 = ∑ 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ 1 n ( X i − X ˉ ) 2 = S X Y S X → c o v ( X , Y ) σ X 2 \hat{\beta}_1=\frac{\sum_1^n\limits(X_i-\bar{X})(Y_i-\bar Y)}{\sum_1^n\limits(X_i-\bar X)^2}=\frac {S_{XY}}{S_X}\rightarrow\frac{cov(X,Y)}{\sigma^2_X} β^1=1∑n(Xi−Xˉ)21∑n(Xi−Xˉ)(Yi−Yˉ)=SXSXY→σX2cov(X,Y)
β ^ 0 = Y ˉ − β ^ 1 X ˉ \hat \beta_0=\bar Y-\hat\beta_1\bar X β^0=Yˉ−β^1Xˉ
拟合优度
- 被解释平方和 E S S = ∑ 1 n ( Y ^ i − Y ˉ ) 2 ESS=\sum_1^n\limits(\hat Y_i-\bar Y)^2 ESS=1∑n(Y^i−Yˉ)2
- 总平方和 T S S = ∑ 1 n ( Y i − Y ˉ ) 2 TSS=\sum_1^n\limits( Y_i-\bar Y)^2 TSS=1∑n(Yi−Yˉ)2
- 残差平方和 S S R = ∑ 1 n ( Y ^ i − Y i ) 2 = ∑ u i 2 SSR=\sum_1^n\limits(\hat Y_i-Y_i)^2=\sum u_i^2 SSR=1∑n(Y^i−Yi)2=∑ui2
- 易证 T S S = S S R + E S S TSS=SSR+ESS TSS=SSR+ESS(配凑)
- 回归R2指回归能解释的比例,即 R 2 = E S S T S S = 1 − S S R T S S R^2=\frac{ESS}{TSS}=1-\frac{SSR}{TSS} R2=TSSESS=1−TSSSSR
回归标准误
S E R SER SER是对回归误差 u i u_i ui的估计量:
S E R = s u ^ , s u ^ 2 = 1 n − 2 ∑ u ^ i 2 = S S R n − 2 SER=s_{\hat{u}}, s^2_{\hat u}=\frac 1{n-2}\sum \hat u^2_i=\frac{SSR}{n-2} SER=su^,su^2=n−21∑u^i2=n−2SSR
最小二乘假设
- u i u_i ui的条件分布均值为零,即 E ( u i ∣ X i = x ) = 0 E(u_i|X_i=x)=0 E(ui∣Xi=x)=0。换言之, u i u_i ui所代表的“其他元素”与 X i X_i Xi无关。
- ( X i , Y i ) , i = 1 , 2 , … , n (X_i,Y_i),i=1,2,\dots,n (Xi,Yi),i=1,2,…,n独立同分布。( i . i . d i.i.d i.i.d假设,independent & identically distributed),这是关于如何抽样的假设。
- 不太可能出现大异常值(即非零有限四阶矩 0 < E [ x 4 ] < ∞ 0<E[x^4]<\infty 0<E[x4]<∞)
Gauss-Markov条件和定理
Gauss-Markov条件:(多元形式)
- E ( u ∣ X i ) = 0 E(\bold u|\bold X_i)=\bold 0 E(u∣Xi