白话参数估计

目录

参数估计的基础知识储备

什么是参数估计?

参数估计有哪些类型?

点估计

区间估计


参数估计的基础知识储备

正太分布(必须)、中心极限定理(非必须)

什么是参数估计?

参数估计是用抽取部分样本的特征,来推断样本总体的特征,举个例子,比如全国人口平均身高,这是个不可能以全体样本来统计的指标,那么就采用抽样的方式,以抽取样本内的平均身高来推断全国的平均身高,为什么说推断,而不是等于呢?

假设我们抽样了多个批次,那么每个批次计算出来的平均身高大体是不会相同的

我们可以知道的是:每个批次所计算出来的平均身高多数会分布在真正的平均身高附近,少数情况会里真正的平均身高较远
其实,仔细思考一下,多个抽样批次所计算出来的平均身高,他们所组成的分布是符合高斯分布的,统计学上的中心极限定理也说明了这点。

参数估计有哪些类型?

总的来说有点估计和区间估计两个类型,

点估计

延续上面的例子,我们假设用抽样的样本所计算出的平均身高,当成是全国的平均身高,这个就叫做点估计,那么仔细思考下,点估计是有一定问题的,

比如:抽样样本的平均身高很可能是不等于真实的全国平均身高的,我们需要给出一个指标,来说明这个点估计的可靠性,如点估计的可靠性是99%,这样一来我们就会觉的这个点估计比较靠谱。然而比较可惜,可靠性这个指标我们没法去计算。

区间估计

那么在点估计的基础上,我们计算出一个区间,也就是点估计的左右、或者说上下的浮动区间,然后在给这个区间加个可靠性说明,叫做 置信度,这个区间叫做置信区间 ,那么这个方法就叫做区间估计。好了那么接下来就是如何确定这个区间、以及这个区间的可靠性--置信度了。

上面,我们提到  多个抽样批次所计算出来的平均身高,他们所组成的分布是符合高斯分布的  这是个很重要的理论,也是区间估计的依靠理论。所以我们可以将多次抽样的平均身高,描述为 是总体样本的均值,是总体样本的方差,n是抽样的数量。

那么为什么多次抽样的平均身高可以用总体样本的均值描述呢,方差又为什么用总体方差除以n呢?熟悉中心极限定理的肯定对这个没啥疑问了,

我们来简单思考一下:

如果抽样次数足够多的话,多个批次的抽样样本,所计算出来的平均身高 的平均值,是等于总体样本的均值的,因此抽样样本的高斯分布,其均值就可以用总体样本的均值表示。

另外,当进行抽样的时候,如果每次抽取的样本数量 n 足够大,那么抽样样本的均值,是非常接近总体样本的均值的,其波动范围可以认为是很小的,而就描述了均值的浮动范围,总体样本的方差大小是固定的,抽样样本数量n越大,那么其波动范围就越小。

好了,我们继续

在区间估计开头,我们说到 “在点估计的基础上,我们计算出一个区间,也就是点估计的左右、或者说上下的浮动区间 ,然后在给这个区间加个可靠性说明,叫做 置信度,这个区间叫做置信区间 ”

置信区间是围绕 点估计的浮动区间,我们认为是左右浮动,且左右浮动的幅度是相等的,即置信区间关于点估计对称,样本均值是点估计,求置信区间就是求以为中心的左右浮动区间。

那么置信度、置信区间到底是什么?又该怎么理解呢?

我们刚才说到点估计是有缺点的,他没有可靠性的衡量,所以我们提出了区间估计,用区间来描述总体的特征,用置信度这个可靠性指标来描述这个区间的可信程度。

比方说:

点估计-----抽样样本计算出的平均身高为170cm,推断全国人民的平均身高为170cm,他没有可靠性指标衡量,所以我们觉得不够靠谱。

区间估计-----抽样样本计算出的平均身高区间为[160cm~180cm],可靠程度为95%。也就是说在每次抽样条件不变的情况下,进行100次的抽样所计算出的平均身高区间,有95次都会包含真正的全国人民平均身高,注意是平均身高区间包括真正的平均身高,[160cm~180cm] 是某一次抽样所计算出来的平均身高区间,真正的全国人民平均身高到底在不在这个区间呢,其实并不知道,你不能说[160cm~180cm]有95%的可能性包含真正的全国人民平均身高,这个理解是不对的。

以上对于区间估计的理解非常重要~~~~也是整个参数估计的核心思想


我们知道标准正太分布概率密度曲线是关于均值对称的,置信区间就是围绕这个左右浮动的区间,置信区间所对应的面积就是置信度

我们假设知道了总体的方差,在总体中抽取了n个样本,n>30,根据抽样样本计算出的样本均值为,求依据本次抽样,计算一下,在95%置信度下的置信区间是多少?

求置信区间有个前提条件需要指定,就是置信度,95%置信度、90%置信度所求出来的置信区间肯定是不一样的。

由于标准正太分布我们很熟悉了,某一区间所对应的面积(概率),可以通过查表获得,那么问题就转换为普通正太分布转换为标准正太分布的问题了,即:

换个角度转换成置信区间的表达式:就是均值,是总体样本标准差,n是本次抽样的样本数量,是置信度,就是置信区间右边界对应的Z值。称为置信下限,称为置信上限。

依据置信区间的表达式呢,我们继续分析一下:

由于总体样本方差是固定的,当抽样样本数量无限大时,置信区间几乎为0,说明了抽样样本均值的波动范围几乎没有,抽样样本均值几乎等于总体样本均值

当置信度固定,越大置信区间越窄,抽样均值的波动范围就越窄,说明抽样特征对总体特征的描述就越精确

当抽样样本数量不变时,当置信度越大,Z值就越大,置信区间就越大,说明了当抽样样本数量固定时,描述范围越大,就有足够的可能性包含真正的特征值(这个也是常识)

总的来说,对于区间估计,想要增大估计的可靠性,就会使置信区间变宽而降低精度,想要提高精度,就要求估计区间变窄,而这样估计的可靠性就会变低

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值