总体统计量的估计方法

总体统计量的估计方法

1 点估计量法

可以用点估计量来估计总体的均值、方差或一定比例的精确值。但是无法可定估计完全正确,只是对总体做出假设。

1.1 通过样本估算总体均值

符号定义:

  • $\mu$:总体均值。
  • $\hat{\mu}$:总体均值的点估计量,在总体均值未知时,其可作为总体均值的估计值。
  • $\bar{x}$:样本均值,和总体均值的计算方法一样。

如果想要十分近似的估计总体均值,可以用下列算式估算总体均值:$$\bar{x}=\frac{\sum{x}}{n}$$

即用样本均值作为总体均值的点估计量:$$\hat{\mu}=\bar{x}$$

1.2 通过样本估算总体方差

符号定义:

  • $\sigma^{2}$:总体方差。
  • $\hat{\sigma}^{2}$:总体方差的点估计量,在总体方差未知时,其可作为总体方差的估计值。
  • $s^{2}$:总体方差点估计量表示符号

一个数据集的方差度量的是数值与均值的偏离程度。当选择一个样本后,相比总体,样本总的数值数量变少了,因此与总体中数值的偏离程度相比,样本中的数值,可能更紧密的聚集在数值周围。极端数值在样本中出现的可能性下降,这是因为总的来说这样的数值变少了了。所以用样本方差来估计总体方差会出现这样的问题:估计结果会稍微偏低,样本方差可能会略小于总体方差,差别程度取决于样本的大小。样本较小时,样本方差与总体方差的差别有可能更大。

如果样本大小为$n$,可以用下列算式估算总体方差:$$s^{2}=\frac{\sum{(x-\bar{x})^{2}}}{n-1}$$

没有用样本方差而是用上述算式作为总体方差的点估计量:$$\hat{\sigma}^{2}=s^{2}$$

如果需要计算总体方差的真实值,需要使用如下算式:$$\sigma^{2}=\frac{\sum{(x-\mu})^{2}}{n}$$

1.3 通过样本估算总体比例

符号定义:

  • $p$:总体成功比例。
  • $\hat{p}$:总体成功比例的点估计量。
  • $P_{s}$:样本成功比例。

 对于符合二项分布的总体,用$X$表示总体成功事件的数量,参数为$n$和$p$。$n$为总体的人数,$p$为成功事件的比例。

就像总体均值最接近的估计值是样本均值一样,总体成功比例最接近的估计值是样本成功比例。样本比例算式如下:$$P_{s}=\frac{成功数目}{样本数目}$$

即用样本成功比例作为总体成功比例的点估计量:$$\hat{p}=P_{s}$$

1.4 比例的抽样分布(通过总体计算样本)

符号定义:

  • $p$:总体成功比例。
  • $P_{s}$:样本成功比例。

一大盒包装糖可供数人分享,每盒有100粒糖球,糖球总体中有25%是红色的。现在要求一大盒特定糖球中有40颗或40颗以上红色糖球的概率。总体参数已知,需要为某一盒糖球计算概率。也就是说计算的不是总体概率,而是样本比例的概率。为此,需要得出样本比例的概率分布:

  • 查看与特定样本大小相同的所有样本:如果样本大小为n,则需要考虑所有大小为n的可能样本。本例中,样本单位为盒,样本大小为100,即n为100。
  • 观察所有样本比例形成的分布,然后求出比例的期望和方差:每一个样本都有自己的情况,因此每个包装盒里红色糖球的比例都有可能发生变化。
  • 得出比例分布后,利用分布求出概率:得知一个样本中”成功比例“的分布后,就能够利用这个分布求出一个随机样本的比例概率,这里的随机样本是一大盒糖球。

此例总,$p$总体成功比例代表总体中红色糖球的比例,即$p=0.25$

每一盒糖球都是从总体中抽取的一个样本。每盒有100个糖球,因此样本大小$n$为100。如果用随机变量$X$表示样本中红球的数量,则$X$服从二项分布,表示为$X\sim B(n,p)$,其中$n=100$$p=0.25$

样本中红色糖球的比例取决于$X$,样本中红色糖球的数目,即比例本身是一个随机变量,可将其记为$P_{s}$,且$P_{s}=\frac{X}{n}$

可以取出大小为$n$的可能样本为数众多,每一个可能样本包含$n$颗糖球,每个可能样本中红色糖球都服从同一分布,即$X\sim B(n,p)$,且样本中红色糖球的比例为$P_{s}=\frac{X}{n}$

利用所有可能的样本,能得出所有样本比例的 分布,该分布称作比例的抽样分布,或者称作$P_{s}$的分布

利用比例的抽样分布,能够求出某一个随机选择的、大小为$n$的样本的"成功比例"的概率(本例中即为,利用比例的抽样分布,能够求出某一大盒糖球中红色糖球比例至少为40%的概率)。

在此之前,还需要知道$P_{s}$分布的期望和方差。

$P_{s}$分布的期望:$$E(P_{s})=E\left ( \frac{X}{n} \right )=\frac{E(X)}{n}$$

上式中$X$为样本中红色糖球的数量,其服从二项分布$X\sim B(n,p)$,所以上式的结果为:$$E(P_{s})=E\left ( \frac{X}{n} \right )=\frac{E(X)}{n}=\frac{np}{n}=p$$

可以期望样本的成功比例和总体的成功比例一样,上述结果也证明确实如此。

$P_{s}$分布的方差:$$Var(P_{s})=Var(\frac{X}{n})=\frac{Var(X)}{n^{2}}$$

上式中$X$为样本中红色糖球的数量,其服从二项分布$X\sim B(n,p)$,所以上式的结果为:$$Var(P_{s})=Var(\frac{X}{n})=\frac{Var(X)}{n^{2}}=\frac{npq}{n^{2}}=\frac{pq}{n}$$

取方差的平方根,可得$P_{s}$的标准差,它指出样本比例与$p$(样本比例均值)的可能差距。有时称作比例标准误差,因为它能指出样本比例的可能误差。$$比例标准误差=\sqrt{\frac{pq}{n}}$$

在求得$P_{s}$的期望和方差后,发现当$n$足够大(大于30)时,$P_{s}$的分布越接近正太分布,可表示为:$$P_{s}\sim N(p,\frac{pq}{n})$$

由于当$n>30$时,$P_{s}$接近正太分布,可以用正太分布来解答“某一大盒糖球中红色糖球比例至少为40%的概率”。最后需要对抽样分布进行连续性修正。

1.5 均值的抽样分布(通过总体计算样本)

符号定义:

  • $\mu$:总体均值。
  • $\sigma^{2}$:总体方差。
  • $X$:一个包装袋中糖球的数量。
  • $\bar{X}$$n$袋糖球的容量均值。

经过统计,每一袋小包装袋中糖球数目的均值为10,方差为1。现遭到顾客投诉:买了30袋糖球,结果发现每袋糖球中糖球的平均数目只有8.5。那么,这种事情发生的概率为多大。已知总体的均值和方差,然后抽取几袋糖球作为样本,需要计算样本均值的概率。为此,需要得出样本均值的概率分布:

  • 查看与所研究样本大小相同的所有可能样本:如果样本大小为$n$则需要考虑所有大小为为$n$的样本。此例中小包装糖球有30袋,因此样本大小$n=30$
  • 查看所有样本的分布,求出样本均值的期望和方差:每一个样本都有各自的特点,每个包装袋中的糖球数目都有变化。
  • 得知样本均值的概率分布后,利用该分布求出概率:只要知道所有可能样本的样本均值的概率分布,就能利用该分布求得一个随机样本的样本均值的概率。此例中,随机样本为小袋包装糖球。

随机选出的每一袋糖球都是$X$独立观察结果。因此,每一袋糖球都服从同一分布,即如果用$X_{i}$代表随机抽取一袋糖球中糖球的数量,则每个$X_{i}$的期望都是$\mu$,方差都是$\sigma^{2}$

现在取$n$包糖球作为样本,用$X_{1}$$X_{n}$标记每袋糖球的数量,每个$X_{i}$都是$X$的独立观察结果,且服从上述分布。

$\bar{X}$表示$n$袋糖球的容量均值,$\bar{X}$的公式:$$\bar{X}=\frac{X_{1}+X_{2}+\cdot \cdot \cdot +X_{n}}{n}$$

可以取出大小为$n$的所有可能样本。每一个样本都包含$n$袋糖球,即每一个样本都包含$X$$n$个独立观察结果。每个随机选择的包装中的糖球数量都服从相同的正太分布。可以用同样的方法计算每个样本的糖球数量均值。

从所有可能的样本得出的样本均值形成一个分布,称作均值的抽样分布,或称作$\bar{X}$的分布

均值的抽样分布提供了一种计算样本均值概率的方法(本例中,即为在一个30袋糖球的样本中,求糖球数目均值小于或等于8.5的概率)。

在次之前,需要知道$\bar{X}$分布的期望和方差。

$\bar{X}$分布的期望$$E(\bar{X})=E(\frac{X_{1}+X_{2}+\cdot \cdot \cdot +X_{n}}{n})=E\left ( \frac{X_{1}}{n} \right )+E\left ( \frac{X_{2}}{n} \right )+\cdot \cdot \cdot +E\left ( \frac{X_{n}}{n} \right )=\frac{E(X_{1})+E(X_{2})\cdot \cdot \cdot +E(X_{n})}{n}$$

上式中$X_{i}$服从同一分布,且期望为$\mu$,方差为$\sigma^{2}$。所以上式结果为:$$E(\bar{X})=\frac{\mu+\mu+\cdot \cdot \cdot +\mu}{n}=\frac{n\mu}{n}=\mu$$

$\bar{X}$分布的方差$$Var(\bar{X})=Var(\frac{X_{1}+X_{2}+\cdot \cdot \cdot +X_{n}}{n})=Var\left ( \frac{X_{1}}{n} \right )+Var\left ( \frac{X_{2}}{n} \right )+\cdot \cdot \cdot +Var\left ( \frac{X_{n}}{n} \right )=\frac{Var(X_{1})+Var(X_{2})+\cdot \cdot \cdot +Var(X_{n})}{n^{2}}$$

上式中$X_{i}$服从同一分布,且期望为$\mu$,方差为$\sigma^{2}$。所以上式结果为:$$Var(\bar{X})=\frac{\sigma^{2}+\sigma^{2}+\cdot \cdot \cdot +\sigma^{2}}{n^{2}}=\frac{n\sigma^{2}}{n^{2}}=\frac{\sigma^{2}}{n}$$

取方差的平方根,可得$\bar{X}$的标准差,其指出样本均值与$\mu$可能偏离的距离,因此也称作均值标准误差$$=\sqrt{\frac{\sigma^{2}}{n}}=\frac{\sigma}{\sqrt{n}}$$

$n$越大,均值标准误差越小。也就是说,样本中的个体越多,作为总体均值估计量的样本均值越可靠。

在求得$\bar{X}$的期望和方差后,还需要知道$\bar{X}$是如何分布的:

  • $X$符合正太分布时,即若$X\sim N(\mu,\sigma^{2})$,那么$\bar{X}\sim N(\mu,\frac{\sigma^{2}}{n})$
  • $X$不符合正太分布时,若$n$足够大(大于30)时,那么$\bar{X}\sim N(\mu,\frac{\sigma^{2}}{n})$

上述第二条结论的依据是中心极限定理:如果从一个非正太总体$X$中取出一个样本,若样本足够大(大于30),则样本均值$\bar{X}$的分布近似正太分布。

最后此例中求$P(\bar{X}<8.5)$的概率,使用上述$\bar{X}$的概率分布即可。

2 置信区间的构建

点估计量可以估计总体的均值、方差或一定比例的精确值。但无法保证估计完全正确。因为仅依靠一个样本对总体做出估计,若样本出现问题,这个估计就会不准确。而置信区间是一种考虑了不确定性的总体统计量的估计方法,用一个区间而不是一个精确值来估计总体统计量。

2.1 认识置信区间

曼帝糖果公司用一个包含100粒糖球的样本得出口味持续时间均值的点估计量为62.7分钟,同时总体方差的点估计量为25分钟。首席执行官在电视节目的黄金时段宣布:糖球口味的平均持续时间为62.7分钟。这是根据手头证据可能得出的最可靠的口味持续时间估计值。可要略有差池,该怎么办?

以上是由精度引起的问题,点估计量很可能接近总体均值,问题是多接近才是够接近?与其用一个精确值作为总体均值的估计值,不如使用另一种方法。可以指定某一区间而不是一个十分精确的时间,作为糖球口味持续时间的估计。例如,可以说糖球口味的持续时间为55至65分钟,这仍会让听着觉得糖球口味的持续时间接近1小时,却保留更大的误差空间。那么,如果为总体均值指定一个区间,而不是一个精确的数值,我们期望糖球口味持续时间的均值介于这个区间内。让均值的点估计量处于这个区间($(a,b)$)的中央,并将这个区间的上下限设定为均值点估计量加上或减去某个误差

选择区间上下限是为了让总体均值介于$a$和$b$之间这一结果具有特定概率。例如,希望通过选择$a$$b$,使得该区间包含总体均值的概率为95%。也就是说选择的$a$$b$使得:$$P(a<\mu<b)=0.95$$

用$(a,b)$表示这个区间,由于$a$和$b$的数值取决于自己对该区间包含总体均值这一结果具有的可信程度(置信度或置信水平),因此,$(a,b)$被称为置信区间

2.2 求解置信区间

  • 选择总体统计量:用于构建置信区间的总体统计量。
  • 求出其抽样分布:比例抽样分布或均值抽样分布等。
  • 决定置信水平:置信区间包含该统计量的概率。
  • 求出置信上下限:为了求出上下限,需要知道抽样分布和置信水平。

求出糖果口味持续时间的置信区间。

2.2.1 选择总体统计量

在此例中需要为糖球口味持续时间构建一个置信区间,也就是为总体均值$\mu$构建一个置信区间。

2.2.2 求出所选统计量的抽样分布

为了求出总体均值的抽样分布,需要知道均值的抽样分布($\bar{X}$分布)的期望和方差 。根据点估计量法可知:$$E(\bar{X})=\mu$$ $$Var(\bar{X})=\frac{\sigma^{2}}{n}$$

为了利用上述结果求出$\mu$的置信区间,带入总体方差数值$\sigma^{2}$和样本大小$n$。但是,现在只知道样本的均值为100,样本方差为25,并不知道总体的方差。所以用样本的方差进行估算。于是均值的抽样分布的期望和方差为:$$E(\bar{X})=\mu$$  $$Var(\bar{X})=\frac{\sigma^{2}}{n}=\frac{\hat{\sigma}^{2}}{n}=\frac{s^{2}}{n}$$

糖果公司用包含100颗糖球的样本计算估计值,得到$s^{2}=25$,于是:$$Var(\bar{X})=\frac{s^{2}}{n}=\frac{25}{100}=0.25$$

为了求出$\mu$的置信区间,还需要知道$\bar{X}$的分布。

假定$X\sim N(\mu,\sigma^{2})$,且样本数量包含很大,那么$$\bar{X}\sim N(\mu,\frac{\sigma^{2}}{n})$$

$$\bar{X}\sim N(\mu,0.25)$$

2.2.3 决定置信水平

置信水平表明对于置信区间包含总体统计量这一结果由多大把握。例如,希望总体均值的置信水平为95%,表示总体均值处于置信区间的概率为95%。常用的置信水平为95%。

Tips:置信水平越高,置信区间越宽,置信区间包含总体统计量的概率越大

2.2.4 求出置信上下限

最后一步求出$a$$b$,即置信上下限。其值确切取决于需要使用的抽样分布以及需要的置信水平。

此例,让糖球口味持续时间具有95%的置信水平。即$\mu$位于区间$(a,b)$的概率为95%。则可利用$\bar{X}\sim N(\mu,0.25)$分布求出$a$$b$,例如$P(\bar{X}<a)=0.025$$P(\bar{X}>b)=0.025$

$\bar{X}$进行标准化:$$Z=\frac{\bar{X}-\mu}{\sqrt{0.25}}$$

其中:$$Z\sim N(0,1)$$

标准化后,转为求$P(z_{a}<Z<z_{b})=0.95$,查询标准正太分布表得知,$z_{a}=-1.96$$z_{b}=1.96$,即:$$P\left ( -1.96<\frac{\bar{X}-\mu}{0.5}<1.96 \right )=0.95$$

$\mu$改写不等式,即得到其置信区间:$$P(\bar{X}-0.98<\mu<\bar{X}+0.98)=0.95$$

$\bar{X}$指样本均值的分布,于是采用糖果公司样本的$\bar{x}$值(62.7),计算出置信区间为$(61.72,63.68)$。

2.3 置信区间的简便算法

只需要查看要求的总体统计量、总体分布以及各种条件,然后带入总体统计量或其估计量,就行了。数值$c$取决于置信水平。

  • 总体统计量$\mu$;总体呈正太分布;$\sigma^{2}$已知、$n$可大可小、$\bar{X}$为样本均值;则置信区间为:$\left ( \bar{X}-\frac{c\sigma}{\sqrt{n}}, \bar{X}+\frac{c\sigma}{\sqrt{n}}\right )$
  • 总体统计量$\mu$;总体呈非正太分布;$\sigma^{2}$已知、$n$很大(至少30)、$\bar{X}$为样本均值;则置信区间为:$\left ( \bar{X}-\frac{c\sigma}{\sqrt{n}}, \bar{X}+\frac{c\sigma}{\sqrt{n}}\right )$
  • 总体统计量$\mu$;总体呈正太或非正态;;$\sigma^{2}$未知、$n$很大(至少30)、$\bar{X}$为样本均值、$s^{2}$为样本方差;则置信区间为:$\left ( \bar{X}-\frac{cs}{\sqrt{n}}, \bar{X}+\frac{cs}{\sqrt{n}}\right )$
  • 总体统计量为$p$;总体呈二项分布;$n$很大、$p_{s}$为样本比例、$q_{s}=1-p_{s}$;则置信区间为:$\left ( p_{s}-c\sqrt{\frac{p_{s}q_{s}}{n}},p_{s}+c\sqrt{\frac{p_{s}q_{s}}{n}} \right )$
  • 总体统计量为$\mu$;总体呈正太或非正太;$\sigma^{2}$未知、$n$很小(小于30)、$\bar{X}$为样本均值、$s^{2}$为样本方差;则置信区间为:$\left ( \bar{X}-\frac{t(v)s}{\sqrt{n}},\bar{X}+\frac{t(v)s}{\sqrt{n}} \right )$

Tips:$t(v)$是自由度为$v=n-1$的$t$分布。

 $c$值的确定方法:

  • 置信水平90%,则$c=1.64$
  • 置信水平95%,则$c=1.96$
  • 置信水平99%,则$c=2.58$  

一般情况下,置信区间的计算式为:$$统计量\pm(误差范围)$$

误差范围等于$c$与检验统计量标注查的乘积:$$误差范围=c\times(统计量的标准差)$$

转载于:https://www.cnblogs.com/strivepy/p/11088205.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
参数估计方法统计学中用于估计总体参数的一种方法。它基于样本数据,通过计算样本统计来推断总体参数的值。常见的参数估计方法包括最大似然估计和最小二乘估计。 最大似然估计(Maximum Likelihood Estimation,简称MLE)是一种常用的参数估计方法。它假设样本数据是从某个已知概率分布中独立地抽取得到的,并通过最大化似然函数来估计参数值。似然函数是关于参数的函数,表示给定参数下观察到样本数据的概率。最大似然估计的目标是找到使似然函数取得最大值的参数值。 最小二乘估计(Least Squares Estimation,简称LSE)是另一种常见的参数估计方法。它适用于线性回归等问题,通过最小化观测值与模型预测值之间的差异来估计参数值。最小二乘估计的目标是找到使观测值与模型预测值之间的平方差和最小的参数值。 这里是一个使用最大似然估计和最小二乘估计的例子: 1. 最大似然估计: 假设我们有一个二项分布的样本数据,我们想要估计成功概率p。我们可以使用最大似然估计估计p的值。 ```python import numpy as np from scipy.stats import binom # 生成二项分布样本数据 np.random.seed(0) data = binom.rvs(n=10, p=0.3, size=100) # 使用最大似然估计估计成功概率p p_hat = sum(data) / (len(data) * 10) print("Estimated success probability: ", p_hat) ``` 2. 最小二乘估计: 假设我们有一组线性回归的样本数据,我们想要估计回归系数。我们可以使用最小二乘估计估计回归系数的值。 ```python import numpy as np from sklearn.linear_model import LinearRegression # 生成线性回归样本数据 np.random.seed(0) X = np.random.rand(100, 1) y = 2 * X + np.random.randn(100, 1) # 使用最小二乘估计估计回归系数 reg = LinearRegression().fit(X, y) coef = reg.coef_ print("Estimated regression coefficient: ", coef) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值