Outlines
- Data, Model and Assumptions
- Parameter estimation
- Important statistics and distribution
- Multivariate linear regression
Data, Model and Assumptions
Data
n
observations:
把
Xi
看做是非随机的来建模
Model
E[Y|X1,...,Xp]=f(X1,...,Xp);Y=f(X1,...,Xp)+e
Model is :
Yi=b0+b1Xi+ei;
ei∼N(0,σ2).
中心化:
Yi=β0+β1(Xi−X¯)+ei
Assumption
X
与
Parameter estimation
参数估计方法:最小二乘法.最小二乘时寻找残差平方和达到最小的参数值,不需要残差
ei
服从正态分布这个条件。
Q(α0,α1)=∑ni=1(Yi−Y^i)2=∑ni=1[Yi−α0−α1(Xi−X¯)]2;
(β^0,β^1)=argmax(α0,α1)Q(α0,α1);
得到:
β^0=Y¯;
α1^=∑i(Xi−X¯)Yi∑i(Xi−X¯)2
记 S2x=∑i(Xi−X¯)2;
Rk:
- β^0,β^1 是 β0,β1 的无偏估计;
- 当残差服从正态分布时,是最小方差无偏估计;
Important statistics and distribution
定义残差 δi=Yi−Y^i,i=1,...,n ,那么
- 当模型正确时,残差平方和可用于提供误差方差
σ2
的一个无偏估计:
σ^2=1n−2∑iδ2i - δi 还可以用于回归诊断/模型诊断。应该是均值为0,无趋势的分布情况;
Key distribution
- ∑iδ2iσ2∼χ2n−2;
-
(β^1−β1)σ^S−1x∼tn−2
- 可以用于检验 H0:β1=c 这个问题;