充分统计量
充分统计量的一种定义是:数据为 X n X^n Xn,如果给定充分统计量的一组取值 T ( X n = x n ) = t T(X^n=x^n)=t T(Xn=xn)=t,能够使得数据的分布不依赖于参数 θ \theta θ,则 T T T是充分统计量。
粗略的说,如果已经知道 T ( x n ) T(x^n) T(xn)就可以计算似然函数,则该统计量是充分的。
例子
X = ( X 1 , X 2 ) ∼ B e r n o u l l i ( p ) X=(X_1, X_2) \sim Bernoulli(p) X=(X1,X2)∼Bernoulli(p),充分统计量是 T = X 1 + X 2 T=X_1+X_2 T=X1+X2。原因是给定任意T的取值,都可以知道数据的分布,而不依赖于参数 p p p。
T = 0 T=0 T=0时,两个数据取0的概率为1,其他为0。 T = 1 T=1 T=1,时,两者取1另一个取0的概率各自为0.5,其他情况为0。当 T = 2 T=2 T=2时,两者取1的概率为1,其他情况为0。
倘若统计量 T = X 1 T=X_1 T=X1,则不是充分统计量。例如当 T = 0 T=0 T=0时,只知道 X 1 X_1 X1取1的概率为0,而 X 2 X_2 X2取1的概率是参数 p p p。
因子分解定理
T
T
T是充分统计量当且仅当存在
g
(
t
,
θ
)
g(t,\theta)
g(t,θ)和
h
(
x
)
h(x)
h(x)使得:
f
(
x
n
;
θ
)
=
g
(
t
(
x
n
)
,
θ
)
h
(
x
n
)
f(x^n;\theta)=g(t(x^n),\theta)h(x^n)
f(xn;θ)=g(t(xn),θ)h(xn).
将此定理应用于上面的例子,首先把似然函数写出来:
f
(
X
;
θ
)
=
f
(
x
1
;
θ
)
f
(
x
2
;
θ
)
=
θ
x
1
+
x
2
(
1
−
θ
)
2
−
x
1
−
x
2
\begin{aligned} f(X;\theta)&=f(x_1;\theta)f(x_2;\theta)\\ &=\theta^{x_1+x_2}(1-\theta)^{2-x_1 - x_2} \end{aligned}
f(X;θ)=f(x1;θ)f(x2;θ)=θx1+x2(1−θ)2−x1−x2令统计量
T
=
X
1
+
X
2
T=X_1+X_2
T=X1+X2,则成为
f
(
X
;
θ
)
=
θ
t
(
1
−
θ
)
2
−
t
f(X;\theta)=\theta^{t}(1-\theta)^{2-t}
f(X;θ)=θt(1−θ)2−t此时,
g
(
t
(
x
n
)
,
θ
)
=
θ
t
(
1
−
θ
)
2
−
t
g(t(x^n),\theta)=\theta^{t}(1-\theta)^{2-t}
g(t(xn),θ)=θt(1−θ)2−t而
h
(
x
)
=
1
h(x)=1
h(x)=1。因此,
T
T
T是充分统计量。
Rao-Blackwell定理
这个定理指出,一个估计应该依赖于充分统计量,否则从MSE的角度上可以被改进。
令
θ
^
\hat{\theta}
θ^为估计,
T
T
T为充分统计量。定义估计
θ
n
e
w
=
E
[
θ
^
∣
T
]
\theta_{new}=E[\hat{\theta}|T]
θnew=E[θ^∣T]则对任意
θ
\theta
θ,有
R
(
θ
,
θ
n
)
≤
R
(
θ
,
θ
^
)
R(\theta,\theta_n) \le R(\theta, \hat{\theta})
R(θ,θn)≤R(θ,θ^).
应用于抛两枚硬币的问题,首先假设
θ
^
=
X
1
\hat{\theta}=X_1
θ^=X1,
E
[
X
1
]
=
p
E[X_1]=p
E[X1]=p是一个无偏估计。定义充分统计量
T
=
X
1
+
X
2
T=X_1+X_2
T=X1+X2,则由Rao-Blackwell定理就可以得到:
θ
n
=
E
[
θ
^
∣
T
]
=
0
×
P
(
X
=
0
∣
T
=
t
)
+
1
×
P
(
X
=
1
∣
T
=
t
)
=
P
(
X
1
=
1
∣
T
=
t
)
=
P
(
X
1
=
1
,
T
=
t
)
P
(
T
=
t
)
=
P
(
X
1
=
1
,
X
2
=
t
−
1
)
P
(
T
=
t
)
=
P
(
X
1
=
1
)
P
(
X
2
=
t
−
1
)
P
(
X
1
+
X
2
=
t
)
=
p
⋅
C
1
t
−
1
p
t
−
1
(
1
−
p
)
1
−
(
t
−
1
)
C
2
t
p
t
(
1
−
p
)
2
−
t
=
C
1
t
−
1
C
2
t
=
t
2
=
X
1
+
X
2
2
\begin{aligned} \theta_n&=E[\hat{\theta}|T]=0\times P(X=0|T=t)+1\times P(X=1|T=t)\\ &=P(X_1=1|T=t)\\ &=\frac{P(X_1=1,T=t)}{P(T=t)}\\ &=\frac{P(X_1=1,X_2=t-1)}{P(T=t)}=\frac{P(X_1=1)P(X_2=t-1)}{P(X_1+X_2=t)}\\ &=\frac{p \cdot C_{1}^{t-1}p^{t-1}(1-p)^{1-(t-1)}}{C_{2}^{t}p^{t}(1-p)^{2-t}}\\ &=\frac{C_{1}^{t-1}}{C_{2}^{t}}=\frac{t}{2}=\frac{X_1+X_2}{2} \end{aligned}
θn=E[θ^∣T]=0×P(X=0∣T=t)+1×P(X=1∣T=t)=P(X1=1∣T=t)=P(T=t)P(X1=1,T=t)=P(T=t)P(X1=1,X2=t−1)=P(X1+X2=t)P(X1=1)P(X2=t−1)=C2tpt(1−p)2−tp⋅C1t−1pt−1(1−p)1−(t−1)=C2tC1t−1=2t=2X1+X2得到了一个估计
θ
n
=
X
1
+
X
2
2
\theta_n=\frac{X_1+X_2}{2}
θn=2X1+X2,其MSE会比
θ
^
=
X
1
\hat{\theta}=X_1
θ^=X1更小。