简单线性回归的参数评价
fitted value 的区间估计
区间估计 Confidence Interval
考虑估计出来的参数\hat alpha, \hat beta,
α
^
+
β
^
x
n
+
1
−
α
+
β
x
n
+
1
σ
1
n
+
(
x
n
+
1
−
x
ˉ
)
2
S
x
x
∼
N
(
0
,
1
)
\frac{\hat \alpha+\hat \beta x_{n+1}-\alpha+ \beta x_{n+1}}{\sigma\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}\sim N(0,1)
σn1+Sxx(xn+1−xˉ)2α^+β^xn+1−α+βxn+1∼N(0,1)
考虑到分母中的sigma是未知的参数,我们用s/\sigma 它的无偏估计量s替换。左右同除以s/sigma,有
α
^
+
β
^
x
n
+
1
−
α
+
β
x
n
+
1
s
1
n
+
(
x
n
+
1
−
x
ˉ
)
2
S
x
x
∼
t
n
−
2
\frac{\hat \alpha+\hat \beta x_{n+1}-\alpha+ \beta x_{n+1}}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}\sim t_{n-2}
sn1+Sxx(xn+1−xˉ)2α^+β^xn+1−α+βxn+1∼tn−2
这是因为(s/\sigma)^2 服从自由度为n-2的卡方分布。
由此给出区间估计
P
(
α
+
β
x
n
+
1
∈
[
α
^
+
β
^
x
n
+
1
±
t
n
−
2
(
α
/
2
)
s
1
n
+
(
x
n
+
1
−
x
ˉ
)
2
S
x
x
]
)
=
1
−
α
(1)
P(\alpha+\beta x_{n+1}\in\bigg[\hat \alpha+\hat \beta x_{n+1} \pm t_{n-2}(\alpha/2)s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}} \bigg])=1-\alpha \tag 1
P(α+βxn+1∈[α^+β^xn+1±tn−2(α/2)sn1+Sxx(xn+1−xˉ)2])=1−α(1)
好的,那么,如果我们有k个目标要估计呢?
P
(
α
+
β
x
n
+
i
∈
[
α
^
+
β
^
x
n
+
1
±
△
]
,
i
=
1
,
.
.
.
,
k
)
≥
1
−
α
P(\alpha+\beta x_{n+i}\in\bigg[\hat \alpha+\hat \beta x_{n+1}\pm\triangle \bigg],i=1,...,k)\ge 1-\alpha
P(α+βxn+i∈[α^+β^xn+1±△],i=1,...,k)≥1−α
考虑写成事件交集的形式
P
(
⋂
i
=
1
k
α
+
β
x
n
+
i
∈
[
α
^
+
β
^
x
n
+
1
±
△
]
)
≥
1
−
α
P(\bigcap_{i=1}^k \alpha+\beta x_{n+i}\in\bigg[\hat \alpha+\hat \beta x_{n+1}\pm\triangle \bigg])\ge 1-\alpha
P(i=1⋂kα+βxn+i∈[α^+β^xn+1±△])≥1−α
再写成差的绝对值的形式
P
(
⋂
i
=
1
k
∣
α
+
β
x
n
+
i
−
α
^
+
β
^
x
n
+
1
∣
≤
△
)
≥
1
−
α
P(\bigcap_{i=1}^k |\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|\le\triangle )\ge 1-\alpha
P(i=1⋂k∣α+βxn+i−α^+β^xn+1∣≤△)≥1−α
再写成1-补事件发生的概率的形式,对概率的并,可以放缩到子事件概率的求和
1
−
P
(
⋃
i
=
1
k
∣
α
+
β
x
n
+
i
−
α
^
+
β
^
x
n
+
1
∣
≥
△
)
≥
1
−
∑
i
=
1
k
P
(
∣
α
+
β
x
n
+
i
−
α
^
+
β
^
x
n
+
1
∣
≥
△
)
≥
1
−
α
1-P(\bigcup_{i=1}^k |\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|\ge\triangle )\ge 1-\sum_{i=1}^kP(|\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|\ge\triangle )\ge 1-\alpha
1−P(i=1⋃k∣α+βxn+i−α^+β^xn+1∣≥△)≥1−i=1∑kP(∣α+βxn+i−α^+β^xn+1∣≥△)≥1−α
由此,我们希望使求和项不小于\alpha,即可得到想要的\delta.
不妨对每一项概率都提出要求:
P
(
∣
α
+
β
x
n
+
i
−
α
^
+
β
^
x
n
+
1
∣
≥
△
)
=
α
k
P(|\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|\ge\triangle )=\frac{\alpha}{k}
P(∣α+βxn+i−α^+β^xn+1∣≥△)=kα
考虑下式
P
(
∣
α
+
β
x
n
+
i
−
α
^
+
β
^
x
n
+
1
∣
s
1
n
+
(
x
n
+
1
−
x
ˉ
)
2
S
x
x
≥
△
s
1
n
+
(
x
n
+
1
−
x
ˉ
)
2
S
x
x
)
=
α
k
P\bigg(\frac{|\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}\ge\frac{\triangle}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}} \bigg)=\frac{\alpha}{k}
P(sn1+Sxx(xn+1−xˉ)2∣α+βxn+i−α^+β^xn+1∣≥sn1+Sxx(xn+1−xˉ)2△)=kα
不等式左边的随机变量服从自由度为n-2的t分布。
考虑
△
s
1
n
+
(
x
n
+
1
−
x
ˉ
)
2
S
x
x
=
t
n
−
2
(
α
2
k
)
∴
△
=
s
t
n
−
2
(
α
2
k
)
1
n
+
(
x
n
+
1
−
x
ˉ
)
2
S
x
x
(2)
\frac{\triangle}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}=t_{n-2}(\frac{\alpha}{2k})\\ \therefore \triangle=st_{n-2}(\frac{\alpha}{2k})\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}\tag2
sn1+Sxx(xn+1−xˉ)2△=tn−2(2kα)∴△=stn−2(2kα)n1+Sxx(xn+1−xˉ)2(2)
与(1)对比可以知道,同时估计多个区间的话,区间的长度要大一些,这样才更有把握。
t
n
−
2
(
α
2
k
)
>
t
n
−
2
(
α
2
)
t_{n-2}(\frac{\alpha}{2k})>t_{n-2}(\frac{\alpha}{2})
tn−2(2kα)>tn−2(2α)
以上,是k为有限数的时候才能用,无限数的话,分位数就取到无穷大了。所以可以换一种研究方法,研究t分布的随机变量中最大的那一个。
P
(
max
i
∣
∣
α
+
β
x
n
+
i
−
α
^
+
β
^
x
n
+
1
∣
s
1
n
+
(
x
n
+
1
−
x
ˉ
)
2
S
x
x
∣
≤
△
s
1
n
+
(
x
n
+
1
−
x
ˉ
)
2
S
x
x
)
=
1
−
α
P\bigg(\max_i\bigg|\frac{|\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}\bigg|\le\frac{\triangle}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}} \bigg)=1-\alpha
P(imax
sn1+Sxx(xn+1−xˉ)2∣α+βxn+i−α^+β^xn+1∣
≤sn1+Sxx(xn+1−xˉ)2△)=1−α
假设检验 Hypothesis Test
先找点估计,再确定拒绝域
H
0
:
β
=
β
0
,
H
1
:
β
≠
β
0
β
^
→
β
⟶
H
0
β
0
I
f
∣
β
^
−
β
0
∣
>
A
,
R
e
j
e
c
t
H
0
H_0:\beta=\beta_0,H_1:\beta \ne \beta_0\\ \hat \beta\rightarrow\beta\stackrel{H_0}{\longrightarrow}\beta_0\\ If\; |\hat \beta -\beta_0|>A,Reject\; H_0
H0:β=β0,H1:β=β0β^→β⟶H0β0If∣β^−β0∣>A,RejectH0
显著水平:
α
=
P
(
R
e
j
e
c
t
H
0
∣
H
0
)
=
P
(
∣
β
^
−
β
0
∣
>
A
∣
H
0
)
\alpha=P(Reject\;H_0|H_0)=P(|\hat \beta -\beta_0|>A|H_0)
α=P(RejectH0∣H0)=P(∣β^−β0∣>A∣H0)
怎样找A呢?
β
^
−
β
σ
/
S
x
x
∼
N
(
0
,
1
)
\frac{\hat \beta-\beta}{\sigma/\sqrt{S_{xx}}}\sim N(0,1)
σ/Sxxβ^−β∼N(0,1)
上式除以s/\sigma
β ^ − β s / S x x ∼ t n − 2 \frac{\hat \beta-\beta}{s/\sqrt{S_{xx}}}\sim t_{n-2} s/Sxxβ^−β∼tn−2
这是因为
s
∼
χ
2
(
n
−
2
)
,
β
^
⊥
⊥
s
s\sim \chi^2(n-2),\hat \beta\perp\!\!\!\perp s
s∼χ2(n−2),β^⊥⊥s
所以,我们可以进一步确定A
P
(
∣
β
^
−
β
0
∣
s
/
S
x
x
>
A
s
/
S
x
x
∣
H
0
)
=
α
∴
A
=
t
n
−
2
(
α
/
2
)
s
S
x
x
P(\frac{|\hat \beta -\beta_0|}{s/\sqrt{S_{xx}}}>\frac{A}{s/\sqrt{S_{xx}}}|H_0)=\alpha\\ \therefore A=t_{n-2}(\alpha/2)\frac{s}{\sqrt{S_{xx}}}
P(s/Sxx∣β^−β0∣>s/SxxA∣H0)=α∴A=tn−2(α/2)Sxxs
这就是对\beta=0做的假设检验的拒绝域。
诸SS的分布
S S T = ∑ ( y i − y ˉ ) 2 = S Y Y , d f T = n − 1 SST=\sum(y_i-\bar y)^2=S_{YY},df_{T}=n-1\\ SST=∑(yi−yˉ)2=SYY,dfT=n−1
S S R = ∑ ( y ^ i − y ˉ ) 2 y ˉ = y ^ ˉ , S S R = β ^ S x x , d f R = 1 SSR=\sum(\hat y_i-\bar y)^2\\ \bar y=\bar{ \hat{y}},SSR=\hat \beta S_{xx},df_{R}=1 SSR=∑(y^i−yˉ)2yˉ=y^ˉ,SSR=β^Sxx,dfR=1
S S E = ∑ ( y ^ i − y i ) 2 ∼ σ 2 χ 2 ( n − 2 ) , d f E = n − 2 SSE=\sum(\hat y_i-y_i)^2 \sim \sigma^2 \chi^2(n-2),df_{E}=n-2 SSE=∑(y^i−yi)2∼σ2χ2(n−2),dfE=n−2
有
d
f
T
=
d
f
E
+
d
f
R
r
2
=
△
S
S
R
S
S
T
S
S
E
n
−
2
=
s
2
⊥
⊥
β
^
=
S
S
R
S
x
x
df_{T}=df_{E}+df_{R}\\ r^2\stackrel{\triangle}{=}\frac{SSR}{SST}\\ \frac{SSE}{n-2}=s^2\perp\!\!\!\perp \hat \beta=\frac{SSR}{S_{xx}}
dfT=dfE+dfRr2=△SSTSSRn−2SSE=s2⊥⊥β^=SxxSSR
现在,用SS来检验H0。Under H0:\beta=0
y
i
=
α
+
β
x
i
+
ϵ
i
=
α
+
ϵ
i
y
ˉ
=
α
+
ϵ
ˉ
,
y
i
−
y
ˉ
=
ϵ
i
−
ϵ
ˉ
∵
ϵ
i
∼
i
.
i
.
d
.
N
(
0
,
σ
2
)
∴
ϵ
ˉ
∼
i
.
i
.
d
.
N
(
0
,
σ
2
n
)
1
n
−
1
∑
(
ϵ
i
−
ϵ
ˉ
)
2
∼
σ
2
χ
2
(
n
−
1
)
n
−
1
y_i=\alpha+\beta x_i+\epsilon_i=\alpha+\epsilon_i\\ \bar y=\alpha+\bar \epsilon, y_i-\bar y=\epsilon_i-\bar \epsilon\\ \because \epsilon_i\stackrel{i.i.d.}{\sim}N(0,\sigma^2)\\ \therefore \bar \epsilon\stackrel{i.i.d.}{\sim}N(0,\frac{\sigma^2}{n})\\ \frac{1}{n-1}\sum(\epsilon_i-\bar \epsilon)^2\sim \frac{\sigma^2\chi^2(n-1)}{n-1}
yi=α+βxi+ϵi=α+ϵiyˉ=α+ϵˉ,yi−yˉ=ϵi−ϵˉ∵ϵi∼i.i.d.N(0,σ2)∴ϵˉ∼i.i.d.N(0,nσ2)n−11∑(ϵi−ϵˉ)2∼n−1σ2χ2(n−1)
最后两个分布是相互独立的,这一结论可以通过构造特殊的正交矩阵来证明。
S
S
T
=
∑
(
y
i
−
y
ˉ
)
2
=
∑
(
ϵ
i
−
ϵ
ˉ
)
2
=
σ
2
χ
2
(
n
−
1
)
SST=\sum(y_i-\bar y)^2=\sum(\epsilon_i-\bar \epsilon)^2=\sigma^2 \chi^2(n-1)
SST=∑(yi−yˉ)2=∑(ϵi−ϵˉ)2=σ2χ2(n−1)
还可以将\bar \epsilon写成矩阵乘积的形式
(
ϵ
−
ϵ
ˉ
)
=
(
I
n
−
1
n
1
1
T
)
ϵ
w
h
e
r
e
1
=
(
1
,
.
.
.
,
1
)
T
(\epsilon-\bar\epsilon)=(I_n-\frac{1}{n}\mathbf1\mathbf1^T)\epsilon\\ where\; \mathbf1=(1,...,1)^T
(ϵ−ϵˉ)=(In−n111T)ϵwhere1=(1,...,1)T
所以,SST也可以写成如下的形式:
S
S
T
=
ϵ
T
(
I
n
−
1
n
1
1
T
)
T
(
I
n
−
1
n
1
1
T
)
ϵ
=
ϵ
T
(
I
n
−
1
n
1
1
T
)
ϵ
SST=\epsilon^T(I_n-\frac{1}{n}\mathbf1\mathbf1^T)^T(I_n-\frac{1}{n}\mathbf1\mathbf1^T)\epsilon\\ =\epsilon^T(I_n-\frac{1}{n}\mathbf1\mathbf1^T)\epsilon
SST=ϵT(In−n111T)T(In−n111T)ϵ=ϵT(In−n111T)ϵ
若二次型中间的矩阵对称、幂等,则此二次型即为卡方分布,其自由度为矩阵的迹。
显然,对称幂等已经有了,
t
r
(
A
B
)
=
t
r
(
B
A
)
t
r
(
1
1
T
)
=
t
r
(
1
T
1
)
=
n
t
r
(
I
n
−
1
n
1
1
T
)
=
n
−
1
tr(AB)=tr(BA)\\ tr(\mathbf1\mathbf1^T)=tr(\mathbf1^T\mathbf1)=n\\ tr(I_n-\frac{1}{n}\mathbf1\mathbf1^T)=n-1
tr(AB)=tr(BA)tr(11T)=tr(1T1)=ntr(In−n111T)=n−1
所以
S
S
T
=
σ
2
χ
2
(
n
−
1
)
SST=\sigma^2 \chi^2(n-1)
SST=σ2χ2(n−1)
接下来,再考察SSR
S
S
R
=
β
^
2
S
x
x
=
(
S
x
y
S
x
x
)
2
S
x
x
=
S
x
y
2
S
x
x
∼
σ
2
χ
2
(
1
)
SSR=\hat \beta^2 S_{xx}=\bigg(\frac{S_{xy}}{S_{xx}}\bigg)^2S_{xx}=\frac{S_{xy}^2}{S_{xx}}\sim\sigma^2 \chi^2(1)
SSR=β^2Sxx=(SxxSxy)2Sxx=SxxSxy2∼σ2χ2(1)
证明是容易的
(
∑
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
S
x
x
)
2
=
(
∑
(
x
i
−
x
ˉ
)
(
ϵ
i
−
ϵ
ˉ
)
S
x
x
)
2
=
(
∑
(
x
i
−
x
ˉ
)
ϵ
i
S
x
x
)
2
\bigg(\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sqrt{S_{xx}}}\bigg)^2=\bigg(\frac{\sum(x_i-\bar x)(\epsilon_i-\bar\epsilon)}{\sqrt{S_{xx}}}\bigg)^2\\ =\bigg(\frac{\sum(x_i-\bar x)\epsilon_i}{\sqrt{S_{xx}}}\bigg)^2
(Sxx∑(xi−xˉ)(yi−yˉ))2=(Sxx∑(xi−xˉ)(ϵi−ϵˉ))2=(Sxx∑(xi−xˉ)ϵi)2
括号内的部分服从期望为0的正态分布,只需要考察其方差即可。
V
a
r
(
∑
(
x
i
−
x
ˉ
)
ϵ
i
S
x
x
)
=
1
S
x
x
∑
(
x
i
−
x
ˉ
)
2
V
a
r
(
ϵ
i
)
=
S
x
x
S
x
x
σ
2
=
σ
2
Var\bigg(\frac{\sum(x_i-\bar x)\epsilon_i}{\sqrt{S_{xx}}}\bigg)=\frac{1}{S_{xx}}\sum(x_i-\bar x)^2 Var(\epsilon_i)=\frac{S_{xx}}{S_{xx}}\sigma^2=\sigma^2
Var(Sxx∑(xi−xˉ)ϵi)=Sxx1∑(xi−xˉ)2Var(ϵi)=SxxSxxσ2=σ2
由此,
S
S
R
=
σ
2
χ
2
(
1
)
SSR=\sigma^2 \chi^2(1)
SSR=σ2χ2(1)
因为SSR与SSE是独立的,
S
S
T
=
S
S
R
+
S
S
E
SST=SSR+SSE
SST=SSR+SSE
所以它们的分布的自由度也有类似的和数关系
n
−
1
=
1
+
n
−
2
n-1=1+n-2
n−1=1+n−2
现在,考虑拒绝域
α
=
P
(
拒绝
H
0
∣
H
0
)
=
P
(
S
S
R
>
A
∣
H
0
)
\alpha=P(拒绝H_0|H_0)=P(SSR>A|H_0)
α=P(拒绝H0∣H0)=P(SSR>A∣H0)
尽管我们已经知道SSR的分布,但是分布的参数\sigma2是未知的,所以不能直接写出分位数。为了消除未知参数的影响,我们对不等式左右两边同除以s2
α
=
P
(
S
S
R
s
2
>
A
s
2
∣
H
0
)
\alpha=P\bigg(\frac{SSR}{s^2}>\frac{A}{s^2}\bigg|H_0\bigg)
α=P(s2SSR>s2A
H0)
SSR=MSR 均方残差
s^2=MSE 均方误差
定义F=MSR/MSE
就有
F
=
σ
2
χ
2
(
1
)
σ
2
χ
2
(
n
−
2
)
/
(
n
−
2
)
F=\frac{\sigma^2 \chi^2(1)}{\sigma^2 \chi^2(n-2)/(n-2)}
F=σ2χ2(n−2)/(n−2)σ2χ2(1)
由于分子分母是独立的,F服从参数为1,n-2的F分布。
所以,
A
=
F
1
,
n
−
2
(
α
)
s
2
A=F_{1,n-2}(\alpha)s^2
A=F1,n−2(α)s2
多元线性回归
Y = X β + ϵ Y=X\beta+\epsilon Y=Xβ+ϵ
X被称为Data Matrix或Design Matrix。beta是参数向量,可以从最小二乘,BLUE,MLE三个层面加以考察。
Y
∈
R
n
×
1
ϵ
∈
R
n
×
1
X
∈
R
n
×
(
k
+
1
)
β
∈
R
(
k
+
1
)
×
1
Y\in \mathbb{R}^{n\times 1}\\ \epsilon \in \mathbb{R}^{n\times 1}\\ X\in \mathbb{R}^{n\times (k+1)}\\ \beta\in \mathbb{R}^{(k+1)\times 1}
Y∈Rn×1ϵ∈Rn×1X∈Rn×(k+1)β∈R(k+1)×1
再假设
C
o
v
(
Y
∣
X
)
=
C
o
v
(
ϵ
)
=
σ
2
I
n
Cov(Y|X)=Cov(\epsilon )=\sigma^2 I_n
Cov(Y∣X)=Cov(ϵ)=σ2In
即,各个观测之间是不相关的。
Y
^
=
X
β
^
\hat Y=X\hat \beta
Y^=Xβ^
被称为Regression Plane (回归平面)。
对于最小二乘的方法,求导,解出导数为0的方程,得到
β
^
=
(
X
T
X
)
−
1
X
T
Y
E
(
β
^
)
=
E
(
(
X
T
X
)
−
1
X
T
Y
)
=
(
X
T
X
)
−
1
X
T
X
β
=
β
\hat \beta=(X^TX)^{-1}X^TY\\ E(\hat \beta)=E((X^TX)^{-1}X^TY)=(X^TX)^{-1}X^TX\beta=\beta\\
β^=(XTX)−1XTYE(β^)=E((XTX)−1XTY)=(XTX)−1XTXβ=β
所以,此\hat \beta是无偏估计量。
C
o
v
(
β
^
)
=
C
o
v
(
(
X
T
X
)
−
1
X
T
Y
)
=
(
X
T
X
)
−
1
X
T
σ
2
X
I
n
(
X
T
X
)
−
1
=
σ
2
(
X
T
X
)
−
1
Cov(\hat \beta)=Cov((X^TX)^{-1}X^TY)=(X^TX)^{-1}X^T\sigma^2 X I_n(X^TX)^{-1}\\ =\sigma^2(X^TX)^{-1}
Cov(β^)=Cov((XTX)−1XTY)=(XTX)−1XTσ2XIn(XTX)−1=σ2(XTX)−1
如果代入k=1,容易看出\hat \alpha, \hat \beta的方差。
此处,除了解释变量X_i以外,我们还会补充一个截距项。
x
0
=
1
n
,
Y
^
∈
s
p
a
n
{
1
n
,
x
1
,
.
.
.
,
x
k
}
Y
^
=
H
Y
=
X
(
X
T
X
)
−
1
Y
x_0=\mathbb1_n,\hat Y\in span\{\mathbb1_n,x_1,...,x_k\}\\ \hat Y=HY=X(X^TX)^{-1}Y
x0=1n,Y^∈span{1n,x1,...,xk}Y^=HY=X(XTX)−1Y
将H称为Hat Matrix或Projection Matrix。它是由X的特征向量组成的矩阵。
投影阵的性质:
- 对称
- 幂等
- 与单位阵的差也是幂等
- 迹为目标空间的维数
t r ( H ) = t r ( X ( X T X ) − 1 X T ) = t r ( X T X ( X T X ) − 1 ) = t r ( I K + 1 ) = k + 1 tr(H)=tr(X(X^TX)^{-1}X^T)\\ =tr(X^TX(X^TX)^{-1})\\ =tr(I_{K+1})=k+1 tr(H)=tr(X(XTX)−1XT)=tr(XTX(XTX)−1)=tr(IK+1)=k+1
- 投影X,等于没有改变。
( I − H ) X = 0 (I-H)X=0 (I−H)X=0
从5还可以有一个结论:当上式取第一列时,有
H
1
n
=
1
n
H\mathbb1_n=1_n
H1n=1n
这个式子还是有点重要的。
BLUE(可以说明就是LSE)
对于LSE估计
b
=
(
X
T
X
)
−
1
X
T
Y
b=(X^TX)^{-1}X^TY
b=(XTX)−1XTY
考虑任意一个其它的线性无偏估计:
β
^
=
(
(
X
T
X
)
−
1
X
T
+
A
)
Y
E
[
β
^
]
=
(
(
X
T
X
)
−
1
X
T
+
A
)
X
β
=
β
+
A
X
β
\hat \beta=((X^TX)^{-1}X^T+A)Y\\ E[\hat \beta]=((X^TX)^{-1}X^T+A)X\beta=\beta+AX\beta
β^=((XTX)−1XT+A)YE[β^]=((XTX)−1XT+A)Xβ=β+AXβ
由此,
A
X
=
0
AX=0
AX=0
考察协方差矩阵
C
o
v
(
β
^
)
=
[
(
X
T
X
)
−
1
X
T
+
A
]
σ
2
I
n
[
X
(
X
T
X
)
−
1
+
A
T
]
=
σ
2
(
(
X
T
X
)
−
1
+
A
A
T
)
Cov(\hat \beta)=[(X^TX)^{-1}X^T+A]\sigma^2I_n [X (X^TX)^{-1}+A^T]\\ =\sigma^2((X^TX)^{-1}+AA^T)
Cov(β^)=[(XTX)−1XT+A]σ2In[X(XTX)−1+AT]=σ2((XTX)−1+AAT)
因为AA^T是非负定矩阵,所以
t
r
(
C
o
v
(
β
^
)
)
≥
σ
2
(
(
X
T
X
)
−
1
)
=
t
r
(
C
o
v
(
b
)
)
tr(Cov(\hat \beta))\ge \sigma^2((X^TX)^{-1})=tr(Cov(b))
tr(Cov(β^))≥σ2((XTX)−1)=tr(Cov(b))
等号成立当且仅当A=0。
所以,LSE=BLUE。