统计学7——参数估计

目录

知识结构

内容精读

1.估计分类

2.评价标准

3.一个总体参数的估计

3.1总体均值的参数估计

3.2总体比例的参数估计

3.3总体方差的参数估计

4.两个总体参数的估计

4.1两总体均值之差

4.2两总体比例之差

4.3两总体方差之比

5.样本量推算

5.1估计总体均值时样本量确定

5.2估计总体比例时样本量确定

名词解释


知识结构

内容精读

1.估计分类

点估计

点估计就是用样本统计量$\hat{\theta}$的某个取值直接作为总体参数$\theta$的估计值。比如用样本均值$\bar{X}$直接估计总体均值\mu;样本方差$S^2$直接估计总体方差$\sigma^2$等。

区间估计

区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,一般是由样本统计量加减估计误差得到。

由样本统计量所构造的总体参数的估计区间称为置信区间。置信区间的构建过程中,比如有100个样本,每个样本构造一个置信区间,在这100个区间内,有95个包含总体参数的真值,那么称95%为区间估计的置信水平(也称为置信度或置信系数)。

常用置信水平的$z_{\alpha/2}$
置信水平$\alpha$$\alpha/2$$z_{\alpha/2}$
90%0.10.051.645
95%0.050.0251.96
99%0.010.0052/58

ps:

总体的真值是确定的,而样本构造的区间则是不固定的,样本不同估计区间可能也不同,因此置信区间是一个随机区间。

但对于置信水平,总体真值有90%的概率在置信区间内,这样的说法是不正确的,因为总体真值是固定的,只有在与不在两种情况。 这个置信水平不是描述总体真值落在区间的概率,而是针对区间而言的,代表若干次抽样中包含真值的区间个数。

2.评价标准

无偏性

指估计量抽样分布的数学期望等于被估计的总体参数。即$E(\hat{\theta})=\theta$。称$\hat{\theta}$为$\theta$的无偏估计量。

有效性

是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。

即对于两个无偏估计量$\hat{\theta}_{1}$和$\hat{\theta}^2$,若$D(\hat{\theta}_{1})<D(\hat{\theta}_{2})$,则认为$\hat{\theta}_{1}$更有效。

一致性

指随着样本量增大,估计的值越来越接近被估计总体的参数。也就是一个大样本得到的估计量比小样本得到的更接近总体参数真值。

3.一个总体参数的估计

3.1总体均值的参数估计

(1)正态总体,方差已知或正态总体,大样本

在这种情况下样本均值$\bar{X}$为正态分布。

$$z=\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}~N(0,1)$$

由此得到总体均值$\mu$在$1-\alpha$置信水平下的置信区间为:

$$\bar{x}\pm{z_{\alpha/2}\frac{\sigma}{\sqrt{n}}}$$

在$\sigma$未知,但大样本的情况下,可以用样本方差$s$代替,

$$\bar{x}\pm{z_{\alpha/2}\frac{s}{\sqrt{n}}}$$

(2)正态总体,方差未知,小样本

当总体方差未知且样本量较小时,要用样本方差代替总体方差,样本均值则需要经过标准化后服从自由度为(n-1)的t分布。

$$t=\frac{\bar{x}-\mu}{s/\sqrt{n}}~t(n-1)$$

这时总体均值的置信区间为:

 $$\bar{x}\pm t_{\alpha/2}\frac{s}{\sqrt{n}}$$

3.2总体比例的参数估计

对于比例只讨论大样本情况下的估计问题,即比例$p$的抽样分布可用正态分布近似。$E(p)=\pi,\sigma_{p}^{2}=\frac{\pi(1-\pi)}{n}$,标准化后的样本比例服从标准正太分布。

$$z=\frac{p-\pi}{\sqrt{\pi(1-\pi)/n}}~N(0,1)$$

于是总体均值$1-\alpha$的置信区间为:

 $$p\pm z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}$$

上式是在总体比例已知的情况下,当$\pi$未知时,需要用样本均值$p$代替:

 $$p\pm z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}}$$

3.3总体方差的参数估计

对于正态总体,样本方差服从自由度为(n-1)的$\chi^2$分布。

于是有:

$$\frac{(n-1)s^2}{\chi^2_{\alpha/2}}\leqslant\sigma^2\leqslant\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}$$

4.两个总体参数的估计

4.1两总体均值之差

独立样本

(1)大样本

对于两个从总体中独立抽取的样本,$\bar{x}_{1}-\bar{x}_{2}$经过标准化后服从标准正态分布。

$$z=\frac{(\bar{x}_1-\bar{x}_{2})-(\mu_{1}-\mu_{2})}{\sqrt{\frac{\sigma^2_{1}}{n_{1}}+\frac{\sigma_{2}^2}{n_{2}}}}~N(0,1)$$

于是在$1-\alpha$置信水平下,两总体均值差的置信区间为:
$$(\bar{x}_{1}-\bar{x}_2\pm z_{\alpha/2}\sqrt{\frac{\sigma^2_{1}}{n_{1}}+\frac{\sigma_{2}^2}{n_{2}}}$$

同样,当$\sigma_{1}^2,\sigma_{2}^2$未知时,用样本方差$s_{1}^2,s_{2}^2$代替。

(2)小样本

  •  $\sigma_{1}^2,\sigma_{2}^2$未知但相等
    需将两个样本数据组合起来
    $$s_{p}^2=\frac{(n_{1}-1)s_{1}^2+(n_{2}-1)s_{2}^2}{n_{1}+n_{2}-2}$$
    这时样本均值差标准化后服从自由度为$(n_{1}+n_{2}-2)$的t分布:
    $$t=\frac{(\bar{x}_{1}-\bar{x}_{2})-(\mu_{1}-\mu_{2})}{s_{p}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}$$
    故两总体均值之差$1-\alpha$的置信区间是:
    $$(\bar{x}_{1}-\bar{x}_{2})\pm t_{\alpha/2}(n_{1}+n_{2}-2)\sqrt{s_{p}^2\frac{1}{n_{1}}+\frac{1}{n_{2}}}$$
  •  $\sigma_{1}^2,\sigma_{2}^2$未知且不等
    这是样本均值之差标准化后服从自由度为v的t分布
    $$v=\frac{(\frac{s_{1}^2}{n_{1}}+\frac{s_{2}^2}{n_{2}})^2}{\frac{(s_{1}^2/n_{1})^2}{n_{1}-1}+\frac{(s_{2}^2/n_{2})^2}{n_{2}-1}}$$
    均值差$1-\alpha$的置信区间为:
    $$(\bar{x}_{1}-\bar{x}_{2})\pm t_{\alpha/2}\sqrt{\frac{s_{1}^2}{n_{1}}+\frac{s_{2}^2}{n_{2}}}$$

匹配样本 

在实际中可能会出现一些不公平的指派问题,这时候可以使用匹配样本,即一个样本中的数据与另一个样本中的数据相对应。

记两总体均值差$\mu_{d}=\mu_{1}-\mu_{2}$

大样本下置信区间:

$$\mu_{d}\pm z_{\alpha/2}\frac{\sigma_{d}}{\sqrt{n}}$$

小样本下置信区间

$$\mu_{d}\pm t_{\alpha/2}(n-1)\frac{s_{d}}{\sqrt{n}}$$

4.2两总体比例之差

同样的两个样本比例之差标准化和服从标准正态分布。

$$Z=\frac{(p_{1}-p_{2}) - (\pi_{1}-\pi_2)} {\sqrt{\frac{\pi_{1}(1-\pi_{1})}{n_{1}} + \frac{\pi_{2}(1-\pi_{2})}{n_{2}}}}$$

置信区间:
$$(p_{1}-p_{2})\pm z_{\alpha/2}\sqrt{\frac{p_{1}(1-p_{1})}{n_{1}}+\frac{p_{2}(1-p_{2})}{n_{2}}}$$

4.3两总体方差之比

两总体方差比服从$F(n_{1}-1,n_{2}-1)$分布,因此置信区间:

$$\frac{s_{1}^2/s_{2}^2}{F_{\alpha/2}} \leqslant \frac{\sigma_{1}^2}{\sigma_{2}^2} \leqslant\frac{s_{1}^2/s_{2}^2}{F_{1-\alpha/2}}$$

5.样本量推算

令E代表所希望达到的估计误差。

5.1估计总体均值时样本量确定

$$E=z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$$

$$n=\frac{(z_{\alpha/2})^2\sigma^2}{E^2}$$

5.2估计总体比例时样本量确定

$$E=z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}$$

$$n=\frac{(z_{\alpha/2})^2\pi(1-\pi)}{E^2}$$

名词解释

参数估计

用样本统计量去估计总体的参数。比如用样本均值t估计总体均值$\mu$,用样本比例p估计总体比例,用样本方差$s^2$估计总体方差$\sigma^2$。如果将总体参数笼统地用一个符号$\theta$来表示,而用于估计总体参数的统计量用$\hat{\theta}$表示,参数估计就是如何用$\hat{\theta}$来表示$\theta$。

置信区间

置信区间是指在区间估计中,由样本统计量所构造的总体参数的估计区间。置信区间是一个随机区间,它因样本的不同而不同,由于样本是随机的,因此置信区间是不固定的。然而,一个特定的置信区间总是“绝对包含”或“绝对不包含”总体参数的真值,而不存在以多大概率包含总体参数真值。 

  • 17
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值