参数:反应总体某方面特征的量(比如:合格率、均值、方差、中位数…
参数估计的形式:点估计和区间估计
7.1 点估计
借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。
设总体的分布函数为 F ( x ; θ ) F(x; \theta) F(x;θ),其中 θ \theta θ为k维向量。根据样本 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X1,X2,…,Xn构造一个统计量 θ ^ ( X 1 , X 2 , … , X n ) \hat{\theta}(X_1, X_2, \dots, X_n) θ^(X1,X2,…,Xn)作为 θ \theta θ的估计,则称 θ ^ ( X 1 , X 2 , … , X n ) \hat{\theta}(X_1, X_2, \dots, X_n) θ^(X1,X2,…,Xn)为 θ \theta θ的估计量。如果 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,…,xn是一个样本观察值,带入 θ ^ \hat{\theta} θ^后得到的具体值 θ ^ ( x 1 , x 2 , … , x n ) \hat{\theta}(x_1, x_2, \dots, x_n) θ^(x1,x2,…,xn)称为 θ \theta θ的估计值。
常用的点估计方法:矩估计法、极大似然估计法。
一 、矩估计法
统计思想:以样本矩估计总体矩,以样本矩的函数估计总体矩的函数。
理论依据:辛钦大数定律和依概率收敛的性质。
设 θ 1 , θ 2 , … , θ k \theta_1,\theta_2,\dots,\theta_k θ1,θ2,…,θk为待估参数, X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,…,Xn是来自X的样本。矩估计的具体步骤:
-
建立 ( θ 1 , θ 2 , … , θ k ) (\theta_1,\theta_2,\dots,\theta_k) (θ1,θ2,…,θk)与 ( μ 1 , μ 2 , … , μ k ) (\mu_1,\mu_2,\dots,\mu_k) (μ1,μ2,…,μk)的联系:求总体前k阶矩关于k个参数的函数
μ i = E ( X i ) = h i ( θ 1 , θ 2 , … , θ k ) , i = 1 , 2 , … , k . \mu_i=E(X^i)=h_i(\theta_1,\theta_2,\dots,\theta_k),\quad i=1,2,\dots,k. μi=E(Xi)=hi(θ1,θ2,…,θk),i=1,2,…,k. -
求各参数关于k阶矩的反函数
θ i = g i ( μ 1 , μ 2 , … , μ k ) , i = 1 , 2 , … , k \theta_i=g_i(\mu_1,\mu_2,\dots,\mu_k),\quad i=1,2,\dots,k θi=gi(μ1,μ2,…,μk),i=1,2,…,k -
以样本各阶矩 A 1 , A 2 , … , A k A_1,A_2,\dots,A_k A1,A2,…,Ak代替总体X各阶矩 μ 1 , μ 2 , … , μ k \mu_1,\mu_2,\dots,\mu_k μ1,μ2,…,μk, 得到各参数的矩估计
θ ^ i = g i ( A 1 , A 2 , … , A k ) , i = 1 , 2 , … , k \hat\theta_i=g_i(A_1,A_2,\dots,A_k),\quad i=1,2,\dots,k θ^i=gi(A1,A2,…,Ak),i=1,2,…,k
【注】:方差
σ
2
\sigma^2
σ2的矩估计并不是(修正)样本方差
S
2
S^2
S2,而是样本二阶中心距
B
2
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
=
n
−
1
n
S
2
B_2 = \dfrac{1}{n} \sum\limits_{i=1}^n (X_i - \bar{X})^2 = \dfrac{n-1}{n}S^2
B2=n1i=1∑n(Xi−Xˉ)2=nn−1S2
矩估计的特点:
- 直观、简便
- 适用范围广,不需要知道总体分布的具体类型
- 没有充分利用总体分布的信息,精度不高
二 、最大似然估计法
离散型总体
X
∼
p
(
x
;
θ
)
,
θ
∈
Θ
X \sim p(x;\theta),\theta \in \Theta
X∼p(x;θ),θ∈Θ,
θ
\theta
θ为待估参数,
Θ
\Theta
Θ为参数的取值范围。
X
1
,
X
2
,
…
,
X
n
X_1,X_2,\dots, X_n
X1,X2,…,Xn是来自总体X的样本,则
X
1
,
X
2
,
…
,
X
n
X_1, X_2, \dots, X_n
X1,X2,…,Xn的联合分布率为
∏
i
=
1
n
p
(
x
i
;
θ
)
\prod_{i=1}^{n}p(x_i;\theta)
i=1∏np(xi;θ)
又设
(
x
1
,
x
2
,
…
,
x
n
)
(x_1, x_2, \dots, x_n)
(x1,x2,…,xn)是相应于样本的一组观察值,那么样本
X
1
,
X
2
,
…
,
X
n
X_1, X_2, \dots, X_n
X1,X2,…,Xn取到观察值的概率为
L
(
θ
)
=
L
(
x
1
,
x
2
,
…
,
x
n
;
θ
)
=
∏
i
=
1
n
p
(
x
i
;
θ
)
,
θ
∈
Θ
L(\theta)=L(x_1,x_2,\dots,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta), \quad \theta \in \Theta
L(θ)=L(x1,x2,…,xn;θ)=i=1∏np(xi;θ),θ∈Θ
L
(
θ
)
L(\theta)
L(θ)称为样本的似然函数。
最大似然估计法就是固定样本的观察值
x
1
,
x
2
,
…
,
x
n
x_1, x_2, \dots, x_n
x1,x2,…,xn,在
θ
\theta
θ取值的可能范围
Θ
\Theta
Θ内挑选使得最大似然函数
L
(
θ
)
=
L
(
x
1
,
x
2
,
…
,
x
n
;
θ
)
L(\theta)=L(x_1,x_2,\dots,x_n;\theta)
L(θ)=L(x1,x2,…,xn;θ)达到最大值的参数值
θ
^
\hat\theta
θ^作为参数
θ
\theta
θ的估计值,即取
θ
^
\hat\theta
θ^使
L
(
x
1
,
x
2
,
…
,
x
n
;
θ
^
)
=
max
θ
∈
Θ
L
(
x
1
,
x
2
,
…
,
x
n
;
θ
)
L(x_1,x_2,\dots,x_n;\hat\theta)=\displaystyle\max_{\theta \in \Theta} L(x_1,x_2,\dots,x_n;\theta)
L(x1,x2,…,xn;θ^)=θ∈ΘmaxL(x1,x2,…,xn;θ)
这样得到的 θ ^ \hat\theta θ^值与 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,…,xn有关,常记为 θ ^ ( x 1 , x 2 , … , x n ) \hat\theta(x_1,x_2,\dots,x_n) θ^(x1,x2,…,xn) ,称为参数 θ \theta θ的最大似然估计值,相应的统计量 θ ^ ( X 1 , X 2 , … , X n ) \hat\theta(X_1,X_2,\dots,X_n) θ^(X1,X2,…,Xn) 称为参数 θ \theta θ的最大似然估计量。
连续型总体的概率密度
f
(
x
i
;
θ
)
,
θ
∈
Θ
f(x_i; \theta), \theta \in \Theta
f(xi;θ),θ∈Θ
θ
\theta
θ为待估参数,
Θ
\Theta
Θ为参数的取值范围。
X
1
,
X
2
,
…
,
X
n
X_1,X_2,\dots, X_n
X1,X2,…,Xn是来自总体X的样本,则
X
1
,
X
2
,
…
,
X
n
X_1, X_2, \dots, X_n
X1,X2,…,Xn的概率密度函数为
∏
i
=
1
n
p
(
x
i
;
θ
)
\prod_{i=1}^{n} p(x_i; \theta)
i=1∏np(xi;θ)
又设
x
1
,
x
2
,
…
,
x
n
x_1, x_2, \dots, x_n
x1,x2,…,xn是样本的一组观察值,那么样本
(
X
1
,
X
2
,
…
,
X
n
)
(X_1, X_2, \dots, X_n)
(X1,X2,…,Xn)落在
x
1
,
x
2
,
…
,
x
n
x_1, x_2, \dots, x_n
x1,x2,…,xn的领域内的概率近似为
∏
i
=
1
n
p
(
x
i
;
θ
)
d
x
i
\prod_{i=1}^n p(x_i; \theta) dx_i
i=1∏np(xi;θ)dxi
因子
∏
i
=
1
n
d
x
i
\displaystyle\prod_{i=1}^{n}dx_i
i=1∏ndxi与参数
θ
\theta
θ无关, 所以似然函数:
L
(
θ
)
=
L
(
x
1
,
x
2
,
…
,
x
n
;
θ
)
=
∏
i
=
1
n
f
(
x
i
;
n
)
L(\theta)=L(x_1, x_2, \dots, x_n;\theta)=\prod_{i=1}^n f(x_i;n)
L(θ)=L(x1,x2,…,xn;θ)=i=1∏nf(xi;n)
满足下式
L
(
x
1
,
x
2
,
…
,
x
n
;
θ
^
)
=
max
θ
∈
Θ
L
(
x
1
,
x
2
,
…
,
x
n
;
θ
)
L(x_1, x_2, \dots, x_n;\hat\theta)=\max_{\theta \in \Theta} L(x_1, x_2, \dots, x_n;\theta)
L(x1,x2,…,xn;θ^)=θ∈ΘmaxL(x1,x2,…,xn;θ)
的
θ
^
(
x
1
,
x
2
,
…
,
x
n
)
\hat\theta(x_1,x_2,\dots,x_n)
θ^(x1,x2,…,xn)称为
θ
\theta
θ的最大似然_估计值,
θ
^
(
X
1
,
X
2
,
…
,
X
n
)
\hat\theta(X_1,X_2,\dots,X_n)
θ^(X1,X2,…,Xn)称为最大似然估计量。
【说明】:
-
很多情形下, p ( x i ; θ ) p(x_i;\theta) p(xi;θ)和 f ( x ; θ ) f(x;\theta) f(x;θ)关于 θ \theta θ可微, θ \theta θ可从以下方程中解得
d d θ L ( θ ) = 0 \frac{d}{d\theta}L(\theta)=0 dθdL(θ)=0 -
对数似然函数 : l n L ( θ ) lnL(\theta) lnL(θ)
-
对数似然方程组:
∂ L ( θ ) ∂ θ = ∑ i = 1 n ∂ ln p ( x i ; θ ) ∂ θ = 0 \dfrac{\partial L(\theta)}{\partial \theta} = \sum\limits_{i=1}^n \dfrac{\partial \ln p(x_i; \theta)}{\partial \theta} = 0 ∂θ∂L(θ)=i=1∑n∂θ∂lnp(xi;θ)=0
7.3 估计量的评选标准
一 、无偏性
定义 若
θ
^
=
θ
^
(
X
1
,
X
2
,
…
,
X
n
)
\hat\theta=\hat{\theta}(X_1, X_2, \dots, X_n)
θ^=θ^(X1,X2,…,Xn)为参数
θ
\theta
θ的一个估计量,
Θ
\Theta
Θ为参数
θ
\theta
θ的取值范围,若对任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ, 有
E
(
θ
^
)
=
θ
E(\hat{\theta}) = \theta
E(θ^)=θ
则称
θ
^
\hat\theta
θ^是
θ
\theta
θ的无偏估计量。
若 E ( θ ^ ) ≠ 0 E(\hat\theta) \neq 0 E(θ^)=0, 那么 ∣ E ( θ ^ ) − θ ∣ |E(\hat\theta)-\theta| ∣E(θ^)−θ∣称为估计量 θ ^ \hat\theta θ^的偏差,
若 lim n → ∞ E ( θ ) = θ \displaystyle\lim_{n \rightarrow \infty}E(\theta)=\theta n→∞limE(θ)=θ,则称 θ ^ \hat\theta θ^是 θ \theta θ的 渐进无偏估计量。
例: 样本均值 X ˉ \bar X Xˉ是总体均值 μ \mu μ的无偏估计,样本方差 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S_2=\dfrac{1}{n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar X)^2 S2=n−11i=1∑n(Xi−Xˉ)2是总体方差 σ 2 \sigma^2 σ2的无偏估计,而样本二阶中心矩 B 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 = n − 1 n S 2 B_2=\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(X_i-\bar X)^2=\dfrac{n-1}{n}S^2 B2=n1i=1∑n(Xi−Xˉ)2=nn−1S2不是总体方差 σ 2 \sigma^2 σ2的无偏估计,但有 lim n → ∞ E ( B 2 ) = lim n → ∞ n − 1 n σ 2 = σ 2 \displaystyle\lim_{n \rightarrow \infty}E(B_2)=\lim_{n \rightarrow \infty}\frac{n-1}{n}\sigma^2=\sigma^2 n→∞limE(B2)=n→∞limnn−1σ2=σ2,所以 B 2 B_2 B2是 σ 2 \sigma^2 σ2的渐进无偏估计。
纠偏方法:如果 E ( θ ^ ) = a θ + b , θ ∈ Θ E(\hat\theta)=a\theta+b,\theta \in \Theta E(θ^)=aθ+b,θ∈Θ其中 a , b a,b a,b是常数,且 a ≠ 0 a \ne 0 a=0,则 1 a ( θ ^ − b ) \dfrac{1}{a}(\hat\theta-b) a1(θ^−b)是 θ \theta θ的无偏估计。
二 、有效性
定义 设
θ
^
1
=
θ
^
1
(
X
1
,
X
2
,
…
,
X
n
)
\hat\theta_1=\hat\theta_1(X_1,X_2,\dots,X_n)
θ^1=θ^1(X1,X2,…,Xn)与
θ
^
2
=
θ
^
2
(
X
1
,
X
2
,
…
,
X
n
)
\hat\theta_2=\hat\theta_2(X_1,X_2,\dots,X_n)
θ^2=θ^2(X1,X2,…,Xn)都是
θ
\theta
θ的无偏估计量,若对于任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ,有
D
(
θ
^
1
)
≤
D
(
θ
^
2
)
D(\hat\theta_1) \leq D(\hat\theta_2)
D(θ^1)≤D(θ^2)
且至少对于某一个
θ
∈
Θ
\theta \in \Theta
θ∈Θ上式中的不等号成立,则称
θ
^
1
\hat\theta_1
θ^1较
θ
^
2
\hat\theta_2
θ^2有效。
三 、均方误差准则
定义 称 E ( θ ^ − θ ) 2 E(\hat{\theta} - \theta)^2 E(θ^−θ)2为均方误差,记为M(\hat{\theta}, \theta)M(θ^,θ)。显然,均方误差越小越好,这一准则称为均方误差准则。
均方误差可以分为两部分:
M
(
θ
^
,
θ
)
=
D
(
θ
^
)
+
(
E
(
θ
^
)
−
θ
)
2
M(\hat{\theta}, \theta) = D(\hat{\theta}) + (E(\hat{\theta}) - \theta)^2
M(θ^,θ)=D(θ^)+(E(θ^)−θ)2
如果估计量是无偏估计,那么第二部分为0,均方误差变为方差。
四 、相合性
定义 设 θ ^ ( X 1 , X 2 , … , X n ) \hat{\theta}(X_1, X_2, \dots, X_n) θ^(X1,X2,…,Xn)为参数 θ \theta θ的一个估计量, Θ \Theta Θ若对任意的 θ ∈ Θ \theta \in \Theta θ∈Θ, 当 n → ∞ n \rightarrow \infty n→∞时, θ ^ ( X 1 , X 2 , … , X n ) \hat\theta(X_1,X_2,\dots, X_n) θ^(X1,X2,…,Xn)依概率收敛于 θ \theta θ,则称 θ ^ \hat\theta θ^为 θ \theta θ的相合性估计量。
即,若对于任意
θ
∈
Θ
\theta \in \Theta
θ∈Θ都满足:对于任意
ε
>
0
\varepsilon > 0
ε>0,有
lim
n
→
∞
{
∣
θ
^
−
θ
∣
<
ε
}
=
1
\lim_{n\rightarrow\infty}\{ |\hat\theta-\theta|<\varepsilon \}=1
n→∞lim{∣θ^−θ∣<ε}=1
则称
θ
^
\hat\theta
θ^为
θ
\theta
θ的相合性估计量。