区间估计
问题:点估计估计的参数有多大概率是正确的?用区间估计来表示。
置信区间
设总体X的分布函数
F(x;θ)
,
θ
未知,对给定值
α(0<α<1)
,有两个统计量
θ^L=θ^L(X1,X2,...Xn),θ^U=θ^U(X1,X2,...Xn)
,使得
P{θ^L(X1,X2,...Xn)<θ<θ^U(X1,X2,...Xn)}≥1−α
,(
θ^L,θ^U
)称为
θ
的置信水平为
1−α
的双侧置信区间。
θ^L
是双侧置信下限,
θ^U
是双侧置信上限。
θ
虽然未知,但是是确定的数值。
θ^L
,
θ^U
是统计量,随机的,依赖于样本。
置信区间(
θ^L,θ^U
)也是随机的。
(
θ^L,θ^U
)是
θ
的置信水平为
1−α
的置信区间,含义是:区间(
θ^L,θ^U
)有
1−α
的概率覆盖
θ
的真值。区间可能包含真值,也可能不包含真值。
单侧置信下限
如果 P{θ^L(X1,X2,...Xn)<θ}≥1−α ,则称 θ^L 是参数 θ 的置信水平为 1−α 的单侧置信下限。
单侧置信上限
如果 P{θ^U(X1,X2,...Xn)>θ}≥1−α ,则称 θ^U 是参数 θ 的置信水平为 1−α 的单侧置信上限。
关系
如果 θ^L 是参数 θ 的置信水平为 1−α1 的单侧置信下限, θ^U 是参数 θ 的置信水平为 1−α2 的单侧置信上限,则( θ^L,θ^U )是 θ 的置信水平为 1−α1−α2 的置信区间。
精确度
置信区间(
θ^L,θ^U
)的平均长度
E(θ^U−θ^L)
为区间的精确度。
在样本容量一定的情况下,精确度高,则置信水平就降低。
如何选择置信区间##
Neyman原则:在置信水平达到 1−α 的置信区间中,选精确度尽可能高的置信区间。
找精确度高的置信区间
找置信区间
1 找一个随机变量G,G的分布已知。
2 找a,b是的
P(a<G<b)≥1−α
,G是
θ
和样本的函数。
3 从
a<G<b
,计算出
θ^L<θ<θ^U
,得到(
θ^L,θ^U
)。
选择G
G=G(X1,X2...Xn;θ)
为样本和待估参数的函数,如果G的分布已知,不依赖于任何未知参数,则G为枢轴量。
枢轴量与统计量的区别:
统计量:样本的函数;分布未知;
枢轴量:样本和未知参数的函数;分布已知。
正态分布的统计量
X¯¯¯
服从
N(μ,σ2/n)
,
μ,σ2
是未知参数,所以
X¯¯¯
分布未知。
对位置参数
μ
的枢轴量
X¯¯¯−μS/n√
服从t(n-1),与
μ
无关,所以分布已知。
选择精确度高的置信区间##
1 a,b区间最短。
2 如果最优解不存在或者比较复杂,对于连续总体,可以选择满足
P(G(X1,X2,...Xn)≤a)=P(G(X1,X2,...Xn)≥b)=α2
的a和b。
正态总体下的区间估计
单个正态总体均值的区间估计
这里分辨一下标识符。
Φ(x)=P(X≤x)
,
zα
是正态函数的上
α
分位数,表示
P(X>zα)=α=1−Φ(zα
)。
σ2 已知
G=X¯¯¯−μσ/n√
~N(0,1)
正态分布的对称性
μ
的双侧置信区间为
(X¯¯¯−σn√zα/2,X¯¯¯+σn√zα/2)
单侧置信下限为
X¯¯¯−σn√zα
单侧置信上限为
X¯¯¯+σn√zα
σ2 未知
G=X¯¯¯−μS/n√
~t(n-1)
t态分布的对称性
μ
的双侧置信区间为
(X¯¯¯−Sn√tα/2,X¯¯¯+Sn√tα/2)
单侧置信下限为
X¯¯¯−Sn√tα
单侧置信上限为
X¯¯¯+Sn√tα
成对数据均值差的区间估计
为考察降压药降压效果,测试了n个病人用药前后的血压分别为
(X1,Y1),(X2,Y2)...(Xn,Yn)
,
Xi,Yi
不是独立,
X1,X2
…之间独立,但不是同分布。但是
Di=Yi−Xi
,则消除了个体差异,可看成是来自同一正态分布的样本,且相互独立。
μD
的置信水平为
1−α
的置信区间为
(D¯¯¯−tα/2(n−1)SDn√,D¯¯¯+tα/2(n−1)SDn√)
单个正态总体方差的区间估计
G=(n−1)S2σ2
~
X2(n−1)
卡方分布
卡方分布不对称,没有最优解
σ2
的双侧置信区间为
((n−1)S2X2α/2(n−1),(n−1)S2X21−α/2(n−1))
两个正态总体均值差的区间估计
σ21,σ22 已知
σ21,σ22 未知,但 σ1=σ2
σ21,σ22 未知
不再详细记录,用的时候看书。
两个正态总体方差比值的区间估计
不再详细记录,用的时候看书。
其他总体均值的区间估计
设总体X的均值为
μ
,方差为
σ2
,样本为
X1,X2,...Xn
,当n充分大(n>30)时,由中心极限定理可知,
X¯¯¯−μσ/n√
近似服从N(0,1)。
当
σ2已知
,置信区间近似为
(X¯¯¯−σn√zα/2,X¯¯¯+σn√zα/2)
当
σ2
未知,以样本方差
S2
代入,得到置信区间近似为
(X¯¯¯−Sn√zα/2,X¯¯¯+Sn√zα/2)