第六章参数估计(续)

最新推荐文章于 2023-12-08 10:21:39 发布

约定写代码

最新推荐文章于 2023-12-08 10:21:39 发布

阅读量944

点赞数

分类专栏：概率论与数理统计文章标签：区间估计置信区间

本文链接：https://blog.csdn.net/flying_all/article/details/72853779

版权

概率论与数理统计专栏收录该内容

16 篇文章 2 订阅

订阅专栏

区间估计

　问题：点估计估计的参数有多大概率是正确的？用区间估计来表示。

置信区间

　设总体X的分布函数 $F(x;\theta)$ ， $\theta$ 未知，对给定值 $\alpha(0<\alpha<1)$ ，有两个统计量 $\hat \theta_L=\hat \theta_L(X_1,X_2,...X_n),\hat\theta_U=\hat\theta_U(X_1,X_2,...X_n)$ ，使得 $P\{\hat \theta_L(X_1,X_2,...X_n)<\theta<\hat\theta_U(X_1,X_2,...X_n)\}\ge1-\alpha$ ，( $\hat \theta_L,\hat \theta_U$ )称为 $\theta$ 的置信水平为 $1-\alpha$ 的双侧置信区间。 $\hat \theta_L$ 是双侧置信下限， $\hat \theta_U$ 是双侧置信上限。
　 $\theta$ 虽然未知，但是是确定的数值。
　 $\hat \theta_L$ , $\hat \theta_U$ 是统计量，随机的，依赖于样本。
　置信区间( $\hat \theta_L,\hat \theta_U$ )也是随机的。
　( $\hat \theta_L,\hat \theta_U$ )是 $\theta$ 的置信水平为 $1-\alpha$ 的置信区间，含义是：区间( $\hat \theta_L,\hat \theta_U$ )有 $1-\alpha$ 的概率覆盖 $\theta$ 的真值。区间可能包含真值，也可能不包含真值。

单侧置信下限

　如果 $P\{\hat \theta_L(X_1,X_2,...X_n)<\theta\}\ge1-\alpha$ ，则称 $\hat \theta_L$ 是参数 $\theta$ 的置信水平为 $1-\alpha$ 的单侧置信下限。

单侧置信上限

　如果 $P\{\hat \theta_U(X_1,X_2,...X_n)>\theta\}\ge1-\alpha$ ，则称 $\hat \theta_U$ 是参数 $\theta$ 的置信水平为 $1-\alpha$ 的单侧置信上限。　

关系

　如果 $\hat \theta_L$ 是参数 $\theta$ 的置信水平为 $1-\alpha_1$ 的单侧置信下限， $\hat \theta_U$ 是参数 $\theta$ 的置信水平为 $1-\alpha_2$ 的单侧置信上限，则( $\hat \theta_L,\hat \theta_U$ )是 $\theta$ 的置信水平为 $1-\alpha_1-\alpha_2$ 的置信区间。

精确度

　置信区间( $\hat \theta_L,\hat \theta_U$ )的平均长度 $E(\hat \theta_U-\hat \theta_L)$ 为区间的精确度。
　在样本容量一定的情况下，精确度高，则置信水平就降低。

如何选择置信区间##　

　Neyman原则：在置信水平达到 $1-\alpha$ 的置信区间中，选精确度尽可能高的置信区间。

找精确度高的置信区间

找置信区间

　1 找一个随机变量G，G的分布已知。
　2 找a,b是的 $P(a<G<b)\ge1-\alpha$ ，G是 $\theta$ 和样本的函数。
　3 从 $a<G<b$ ，计算出 $\hat \theta_L<\theta<\hat \theta_U$ ，得到( $\hat \theta_L,\hat \theta_U$ )。

选择G

　 $G=G(X_1,X_2...X_n;\theta)$ 为样本和待估参数的函数，如果G的分布已知，不依赖于任何未知参数，则G为枢轴量。
　枢轴量与统计量的区别：
　统计量：样本的函数；分布未知；
　枢轴量：样本和未知参数的函数；分布已知。
　正态分布的统计量 $\overline X$ 服从 $N(\mu,\sigma^2/n)$ ， $\mu,\sigma^2$ 是未知参数，所以 $\overline X$ 分布未知。
　对位置参数 $\mu$ 的枢轴量 $\dfrac{\overline X -\mu}{S/\sqrt{n}}$ 服从t(n-1)，与 $\mu$ 无关，所以分布已知。

选择精确度高的置信区间##　

　1 a,b区间最短。
　2 如果最优解不存在或者比较复杂，对于连续总体，可以选择满足 $P(G(X_1,X_2,...X_n)\le a)=P(G(X_1,X_2,...X_n)\ge b)=\dfrac{\alpha}{2}$ 的a和b。

正态总体下的区间估计

单个正态总体均值的区间估计

　这里分辨一下标识符。 $\Phi(x)=P(X\le x)$ ， $z_\alpha$ 是正态函数的上 $\alpha$ 分位数，表示 $P(X>z_\alpha)=\alpha=1-\Phi(z_\alpha$ )。
　

$\sigma^2$ 已知

　 $G=\dfrac{\overline X-\mu}{\sigma/\sqrt{n}}$ ~N(0,1)
　正态分布的对称性
　 $\mu$ 的双侧置信区间为 $(\overline X - \dfrac{\sigma}{\sqrt{n}}z_{\alpha/2},\overline X +\dfrac{\sigma}{\sqrt{n}}z_{\alpha/2})$
　单侧置信下限为 $\overline X - \dfrac{\sigma}{\sqrt{n}}z_{\alpha}$
　单侧置信上限为 $\overline X + \dfrac{\sigma}{\sqrt{n}}z_{\alpha}$

$\sigma^2$ 未知

　 $G=\dfrac{\overline X-\mu}{S/\sqrt{n}}$ ~t(n-1)
　t态分布的对称性
　 $\mu$ 的双侧置信区间为 $(\overline X - \dfrac{S}{\sqrt{n}}t_{\alpha/2},\overline X +\dfrac{S}{\sqrt{n}}t_{\alpha/2})$
　单侧置信下限为 $\overline X - \dfrac{S}{\sqrt{n}}t_{\alpha}$
　单侧置信上限为 $\overline X + \dfrac{S}{\sqrt{n}}t_{\alpha}$

成对数据均值差的区间估计

　为考察降压药降压效果，测试了n个病人用药前后的血压分别为 $(X_1,Y_1),(X_2,Y_2)...(X_n,Y_n)$ ， $X_i,Y_i$ 不是独立， $X_1,X_2$ …之间独立，但不是同分布。但是 $D_i=Y_i-X_i$ ，则消除了个体差异，可看成是来自同一正态分布的样本，且相互独立。
　 $\mu_D$ 的置信水平为 $1-\alpha$ 的置信区间为 $(\overline D -t_{\alpha/2}(n-1)\dfrac{S_D}{\sqrt{n}},\overline D +t_{\alpha/2}(n-1)\dfrac{S_D}{\sqrt{n}})$
　

单个正态总体方差的区间估计

　 $G=\dfrac{(n-1)S^2}{\sigma^2}$ ~ $X^2(n-1)$ 卡方分布
　卡方分布不对称，没有最优解
　 $\sigma^2$ 的双侧置信区间为 $(\dfrac{(n-1)S^2}{X^2_{\alpha/2}(n-1)},\dfrac{(n-1)S^2}{X^2_{1-\alpha/2}(n-1)})$

两个正态总体均值差的区间估计

$\sigma_1^2,\sigma_2^2$ 已知

$\sigma_1^2,\sigma_2^2$ 未知，但 $\sigma_1=\sigma_2$

$\sigma_1^2,\sigma_2^2$ 未知

不再详细记录，用的时候看书。

两个正态总体方差比值的区间估计

不再详细记录，用的时候看书。

其他总体均值的区间估计

　设总体X的均值为 $\mu$ ，方差为 $\sigma^2$ ，样本为 $X_1,X_2,...X_n$ ，当n充分大(n>30)时，由中心极限定理可知， $\dfrac{\overline X - \mu}{\sigma/\sqrt{n}}$ 　近似服从N(0,1)。
　当 $\sigma^2已知$ ，置信区间近似为 $(\overline X - \dfrac{\sigma}{\sqrt{n}}z_{\alpha/2},\overline X +\dfrac{\sigma}{\sqrt{n}}z_{\alpha/2})$
　当 $\sigma^2$ 未知，以样本方差 $S^2$ 代入，得到置信区间近似为 $(\overline X - \dfrac{S}{\sqrt{n}}z_{\alpha/2},\overline X +\dfrac{S}{\sqrt{n}}z_{\alpha/2})$