统计推断的基本问题
(1)参数估计问题:总体X的分布函数的形式已知,但它的一个或多个参数为未知,需要借助于X的样本来估计它们。有两种形式:点估计和区间估计
(2)假设检验问题:总体X的分布函数的形式完全未知,或只知其形式,但不知其参数,为了推断总体的某些未知特性,提出某些关于总体的假设。
区间估计
引入:点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大。而区间估计正好弥补了点估计的这个缺陷。
譬如,在估计湖中鱼数的问题中,若根据一个实际样本,得到鱼数N的极大似然估计为1000条,实际上,N的真值可能大于1000条,也可能小于1000条,若能给出一个区间,使我们能以比较高的可靠程度相信它包含真参数值。
这里所说的”可靠程度“是用概率来度量的,称为置信概率,置信度或置信水平
习惯上把置信水平记作 1 − α 1-\alpha 1−α,这里 α \alpha α是一个很小的正数。
置信水平的大小是根据实际需要选定的。
一、置信区间的基本概念
-
置信区间的定义:
设 θ \theta θ是一个待估参数,给定 α > 0 \alpha>0 α>0,若由样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn确定的两个统计量 θ ^ 1 = θ ^ 1 ( X 1 , X 2 , . . . , X n ) , θ ^ 2 = θ ^ 2 ( X 1 , X 2 , . . . , X n ) ( θ ^ 1 < θ ^ 2 ) \hat \theta_1=\hat \theta_1(X_1,X_2,...,X_n),\hat \theta_2=\hat \theta_2(X_1,X_2,...,X_n)(\hat \theta_1<\hat \theta_2) θ^1=θ^1(X1,X2,...,Xn),θ^2=θ^2(X1,X2,...,Xn)(θ^1<θ^2)满足
P { θ ^ 1 ≤ θ ≤ θ ^ 2 } = 1 − α P\{\hat \theta_1\leq \theta \leq \hat \theta_2\}=1-\alpha P{θ^1≤θ≤θ^2}=1−α
则称区间 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1,\hat \theta_2] [θ^1,θ^2]是 θ \theta θ的置信水平(置信度、置信概率)为 1 − α 1-\alpha 1−α的置信区间, θ ^ 1 \hat \theta_1 θ^1和 θ ^ 2 \hat \theta_2 θ^2分别称为置信下限和置信上限。通常可取置信水平 1 − α = 0.95 1-\alpha=0.95 1−α=0.95或 0.9 0.9 0.9等。可见,对参数 θ \theta θ作区间估计,就是要设法找出两个只依赖于样本的界限(构造统计量)
θ ^ 1 = θ ^ 1 ( X 1 , . . . , X n ) θ ^ 2 = θ ^ 2 ( X 1 , . . . , X n ) \hat \theta_1=\hat \theta_1(X_1,...,X_n) \\ \hat \theta_2=\hat \theta_2(X_1,...,X_n) θ^1=θ^1(X1,...,Xn)θ^2=θ^2(X1,...,Xn)
其中 θ ^ 1 < θ ^ 2 \hat \theta_1 < \hat \theta_2 θ^1<θ^2,一旦有了样本,就把 θ \theta θ估计在区间 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1, \hat \theta_2] [θ^1,θ^2]内。 -
要求:
- 要求 θ \theta θ以很大的可能被包含在区间 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1,\hat \theta_2] [θ^1,θ^2]内,就是说,概率 P { θ ^ 1 ≤ θ ≤ θ ^ 2 } P\{\hat \theta_1\leq \theta\leq \hat \theta_2\} P{θ^1≤θ≤θ^2}要尽可能大。即要求估计尽量可靠。
- 估计的精度要尽可能的高。如要求区间长度 θ ^ 2 − θ ^ 1 \hat \theta_2 - \hat \theta_1 θ^2−θ^1尽可能短,或能体现该要求的其它准则。
- 可靠度与精度是一对矛盾,一般是在保证可靠度的条件下,尽可能提高精度。
-
寻找置信区间的方法,一般是从确定误差限入手。
我们选取未知参数的某个估计量
θ
^
\hat \theta
θ^,根据置信水平
1
−
α
1-\alpha
1−α,可以找到一个正数
δ
\delta
δ,使得
P
{
∣
θ
^
−
θ
∣
≤
δ
}
=
1
−
α
P\{|\hat \theta-\theta|\leq \delta\}=1-\alpha
P{∣θ^−θ∣≤δ}=1−α
称
δ
\delta
δ为
θ
^
\hat \theta
θ^与
θ
\theta
θ之间的误差限。
只要知道 θ ^ \hat \theta θ^的概率分布,确定误差限并不难。
由不等式
∣
θ
^
−
θ
∣
≤
δ
|\hat \theta - \theta|\leq \delta
∣θ^−θ∣≤δ可以解出
θ
\theta
θ:
θ
^
−
δ
≤
θ
≤
θ
^
+
δ
\hat \theta-\delta \leq \theta \leq \hat \theta + \delta
θ^−δ≤θ≤θ^+δ
这个不等式就是我们所求的置信区间。
二、置信区间的求法
-
一般步骤:
-
明确问题,是求什么参数的置信区间?置信水平 1 − α 1-\alpha 1−α是多少?
-
寻找参数 θ \theta θ的一个良好的点估计
T ( X 1 , X 2 , . . . , X n ) T(X_1,X_2,...,X_n) T(X1,X2,...,Xn) -
寻找一个待估参数 θ \theta θ和估计量 T T T的函数 S ( T , θ ) S(T,\theta) S(T,θ),且其分布为已知。称 S ( T , θ ) S(T,\theta) S(T,θ)为枢轴量。
-
对于给定的置信水平 1 − α 1-\alpha 1−α,根据 S ( T , θ ) S(T,\theta) S(T,θ)的分布,确定常数 a 、 b a、b a、b,使得
P ( a ≤ S ( T , θ ) ≤ b ) = 1 − α P(a\leq S(T,\theta)\leq b)=1-\alpha P(a≤S(T,θ)≤b)=1−α -
对" α ≤ S ( T , θ ) ≤ b \alpha\leq S(T,\theta) \leq b α≤S(T,θ)≤b"作等价变形,得到如下形式:
P { θ ^ 1 ≤ θ ≤ θ ^ 2 } = 1 − α P\{\hat \theta_1 \leq \theta \leq \hat \theta_2\}=1-\alpha P{θ^1≤θ≤θ^2}=1−α
则 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1, \hat \theta_2] [θ^1,θ^2]就是 θ \theta θ的 100 ( 1 − α ) % 100(1-\alpha)\% 100(1−α)%的置信区间
-