闲谈:参数估计方法选取
参数估计有点估计(point estimation) 和 区间估计(interval estimation) 两种。
点估计在抽样推断中不考虑抽样误差,直接以抽样指标代替全体指标的一种推断方法。
区间估计根据抽样指标和抽样误差去估计全体指标的可能范围的一种推断方法。
在本科我们都学过两种构造点估计的方法: 矩估计 和 最大似然估计 ,我们也学过区间估计的 置信区间 构造。
那么对于多个可能的估计,我们要选择哪一个呢? 从定性的角度考虑,我们应当选择:最能高度集中在真实数值上的。同样,本科我们学过一些无偏估计的概念。具有无偏性,是一种用于评价估计量优良性的准则。(可以回忆一下,估计量的数学期望等于被估计参数就是无偏)
实际上,我们需要先从所有估计中选出无偏的,再从中通过“效率”选择更有效的。
1 无偏
通常为了测量偏离程度,我们采用均方误差MSE(Mean Square Error) 作为量化测度,因为分析简单。
M
S
E
(
θ
^
)
=
E
(
θ
^
−
θ
0
)
2
=
V
a
r
(
θ
^
)
+
(
E
(
θ
^
)
−
θ
0
)
2
MSE\left( \hat{\theta} \right) \ =\ E\left( \hat{\theta}-\theta _0 \right) ^2=Var\left( \hat{\theta} \right) +\left( E\left( \hat{\theta} \right) -\theta _0 \right) ^2
MSE(θ^) = E(θ^−θ0)2=Var(θ^)+(E(θ^)−θ0)2
其中,
θ
^
\hat{\theta}
θ^是
θ
0
\theta _0
θ0 的估计。
当估计是无偏的,样本的MSE将等于样本方差。
比如,考虑:
有一个度量X,真实值x0。 X = x 0 + β + ε X=x_0+\beta +\varepsilon X=x0+β+ε
其中, β \beta β是常数,是系统误差成分,常称 β \beta β为测量过程的偏倚bias; ε \varepsilon ε是一个随机变量,是随机误差成分。
那么 E ( X ) = x 0 + β E\left( X \right) =x_0+\beta E(X)=x0+β V a r ( X ) = σ 2 Var\left( X \right) =\sigma ^2 Var(X)=σ2 影响误差大小的两个因素分别是偏倚bias β \beta β和方差大小 σ 2 \sigma ^2 σ2。我们认为 β = 0 \beta=0 β=0
和 σ 2 = 0 \sigma ^2 = 0 σ2=0 时测量是完美的。 M S E = E [ ( X − x 0 ) 2 ] MSE=E\left[ \left( X-x_0 \right) ^2 \right] MSE=E[(X−x0)2] = V a r ( X − x 0 ) + [ E ( X − x 0 ) ] 2 =Var\left( X-x_0 \right) +\left[ E\left( X-x_0 \right) \right] ^2 =Var(X−x0)+[E(X−x0)]2 = V a r ( X ) + β 2 =Var\left( X \right) +\beta ^2 =Var(X)+β2 = σ 2 + β 2 =\sigma ^2+\beta ^2 =σ2+β2
也就是说,均方误差=方差+ 偏倚²
当无偏时,偏倚为0,所以均方误差等于方差。
2 效率
这里的效率实际上是得到相同方差所必需的样本容量比率。这是因为方差通常具有这种形式:
V
a
r
=
常数
样本容量
Var\ =\frac{\text{常数}}{\text{样本容量}}
Var =样本容量常数
在无偏时,均方误差等于方差,有:
e
f
f
(
θ
^
,
θ
~
)
=
V
a
r
(
θ
^
)
V
a
r
(
θ
~
)
=
M
S
E
(
θ
^
)
M
S
E
(
θ
~
)
eff\left( \hat{\theta},\tilde{\theta} \right) =\ \frac{Var\left( \hat{\theta} \right)}{Var\left( \tilde{\theta} \right)}=\frac{MSE\left( \hat{\theta} \right)}{MSE\left( \tilde{\theta} \right)}
eff(θ^,θ~)= Var(θ~)Var(θ^)=MSE(θ~)MSE(θ^)
其中,
θ
^
\hat{\theta}
θ^和
θ
~
\tilde{\theta}
θ~是
θ
0
\theta _0
θ0 的不同估计。(实际上,这种比较在它们都无偏或具有相同偏倚时才有意义)
从而,这种比较包含样本容量的比较。
在无偏情况下,我们将比较效率进行择优。(有时,精确方差无法达到闭式解,可以采用渐进方差,得到渐进相对效率)
不同于矩估计,最大似然估计的情况下,方差闭形式下无解,需要用渐近方差进行近似。
V
a
r
(
α
^
)
≈
1
n
I
(
α
)
Var\left( \hat{\alpha} \right) \approx \frac{1}{nI\left( \alpha \right)}
Var(α^)≈nI(α)1
其中, I ( θ ) = E [ ∂ ∂ θ log f ( x ∣ θ ) ] 2 I\left( \theta \right) =E\left[ \frac{\partial}{\partial \theta}\log f\left( x\left| \theta \right. \right) \right] ^2 I(θ)=E[∂θ∂logf(x∣θ)]2
f光滑时, I ( θ ) = − E [ ∂ 2 ∂ θ 2 log f ( x ∣ θ ) ] I\left( \theta \right) =-E\left[ \frac{\partial ^2}{\partial \theta ^2}\log f\left( x\left| \theta \right. \right) \right] I(θ)=−E[∂θ2∂2logf(x∣θ)]
这个定义在最大似然估计的大样本分布里。在样本容量趋于无穷时,最大似然估计的大样本分布近似服从均值 θ 0 \theta _0 θ0,方差 1 n I ( θ 0 ) \frac{1}{nI\left( \theta _0 \right)} nI(θ0)1 的正态分布。
在寻找最优估计时,我们希望找到估计MSE下界的方法,从而可以知道:估计达到这个下界之后,将不再有改进的空间。这个方法就是克拉默-拉奥不等式。
V
a
r
(
T
)
≥
1
n
I
(
θ
)
Var\left( T \right) \ge \frac{1}{nI\left( \theta \right)}
Var(T)≥nI(θ)1
其中, 前提是:样本都是独立同分布的(i.i.d),具有密度函数f(x,theta),f是光滑的。T是样本的无偏估计。
由此,任何无偏估计的方差下界都可被求出。可以认为:达到下界的无偏估计是有效的(efficient)。(对于用渐进方差求得的渐进相对效率而言,可以说是“渐进有效”的)
本文内容启发自考研复习牙痛休息时看的John.A.Rice《数理统计与数据分析》,并结合了一些个人间接,作为笔记+感悟的混合。