白话参数估计

walking_visitor

于 2021-04-21 18:09:10 发布

阅读量869

点赞数 6

分类专栏：统计学文章标签：参数估计

本文链接：https://blog.csdn.net/walking_visitor/article/details/115937085

版权

统计学专栏收录该内容

8 篇文章 14 订阅

订阅专栏

参数估计的基础知识储备

正太分布(必须)、中心极限定理(非必须)

什么是参数估计？

参数估计是用抽取部分样本的特征，来推断样本总体的特征，举个例子，比如全国人口平均身高，这是个不可能以全体样本来统计的指标，那么就采用抽样的方式，以抽取样本内的平均身高来推断全国的平均身高，为什么说推断，而不是等于呢？

假设我们抽样了多个批次，那么每个批次计算出来的平均身高大体是不会相同的

我们可以知道的是：每个批次所计算出来的平均身高多数会分布在真正的平均身高附近，少数情况会里真正的平均身高较远
其实，仔细思考一下，多个抽样批次所计算出来的平均身高，他们所组成的分布是符合高斯分布的，统计学上的中心极限定理也说明了这点。

参数估计有哪些类型？

总的来说有点估计和区间估计两个类型，

点估计

延续上面的例子，我们假设用抽样的样本所计算出的平均身高，当成是全国的平均身高，这个就叫做点估计，那么仔细思考下，点估计是有一定问题的，

比如：抽样样本的平均身高很可能是不等于真实的全国平均身高的，我们需要给出一个指标，来说明这个点估计的可靠性，如点估计的可靠性是99%，这样一来我们就会觉的这个点估计比较靠谱。然而比较可惜，可靠性这个指标我们没法去计算。

区间估计

那么在点估计的基础上，我们计算出一个区间，也就是点估计的左右、或者说上下的浮动区间，然后在给这个区间加个可靠性说明，叫做置信度，这个区间叫做置信区间，那么这个方法就叫做区间估计。好了那么接下来就是如何确定这个区间、以及这个区间的可靠性--置信度了。

上面，我们提到多个抽样批次所计算出来的平均身高，他们所组成的分布是符合高斯分布的这是个很重要的理论，也是区间估计的依靠理论。所以我们可以将多次抽样的平均身高，描述为，是总体样本的均值，是总体样本的方差，n是抽样的数量。

那么为什么多次抽样的平均身高可以用总体样本的均值描述呢，方差又为什么用总体方差除以n呢？熟悉中心极限定理的肯定对这个没啥疑问了，

我们来简单思考一下：

如果抽样次数足够多的话，多个批次的抽样样本，所计算出来的平均身高的平均值，是等于总体样本的均值的，因此抽样样本的高斯分布，其均值就可以用总体样本的均值表示。

另外，当进行抽样的时候，如果每次抽取的样本数量 n 足够大，那么抽样样本的均值，是非常接近总体样本的均值的，其波动范围可以认为是很小的，而就描述了均值的浮动范围，总体样本的方差大小是固定的，抽样样本数量n越大，那么其波动范围就越小。

好了，我们继续

在区间估计开头，我们说到 “在点估计的基础上，我们计算出一个区间，也就是点估计的左右、或者说上下的浮动区间，然后在给这个区间加个可靠性说明，叫做置信度，这个区间叫做置信区间 ”

置信区间是围绕点估计的浮动区间，我们认为是左右浮动，且左右浮动的幅度是相等的，即置信区间关于点估计对称，样本均值是点估计，求置信区间就是求以为中心的左右浮动区间。

那么置信度、置信区间到底是什么？又该怎么理解呢？

我们刚才说到点估计是有缺点的，他没有可靠性的衡量，所以我们提出了区间估计，用区间来描述总体的特征，用置信度这个可靠性指标来描述这个区间的可信程度。

比方说：

点估计-----抽样样本计算出的平均身高为170cm，推断全国人民的平均身高为170cm，他没有可靠性指标衡量，所以我们觉得不够靠谱。

区间估计-----抽样样本计算出的平均身高区间为[160cm~180cm]，可靠程度为95%。也就是说在每次抽样条件不变的情况下，进行100次的抽样所计算出的平均身高区间，有95次都会包含真正的全国人民平均身高，注意是平均身高区间会包括真正的平均身高，[160cm~180cm] 是某一次抽样所计算出来的平均身高区间，真正的全国人民平均身高到底在不在这个区间呢，其实并不知道，你不能说[160cm~180cm]有95%的可能性包含真正的全国人民平均身高，这个理解是不对的。

以上对于区间估计的理解非常重要~~~~也是整个参数估计的核心思想

我们知道标准正太分布概率密度曲线是关于均值对称的，置信区间就是围绕这个左右浮动的区间，置信区间所对应的面积就是置信度

我们假设知道了总体的方差，在总体中抽取了n个样本，n>30，根据抽样样本计算出的样本均值为，求依据本次抽样，计算一下，在95%置信度下的置信区间是多少？

求置信区间有个前提条件需要指定，就是置信度，95%置信度、90%置信度所求出来的置信区间肯定是不一样的。

由于标准正太分布我们很熟悉了，某一区间所对应的面积(概率)，可以通过查表获得，那么问题就转换为普通正太分布转换为标准正太分布的问题了，即：

换个角度转换成置信区间的表达式：，就是均值，是总体样本标准差，n是本次抽样的样本数量，是置信度，就是置信区间右边界对应的Z值。称为置信下限，称为置信上限。

依据置信区间的表达式呢，我们继续分析一下：

由于总体样本方差是固定的，当抽样样本数量无限大时，置信区间几乎为0，说明了抽样样本均值的波动范围几乎没有，抽样样本均值几乎等于总体样本均值

当置信度固定，越大置信区间越窄，抽样均值的波动范围就越窄，说明抽样特征对总体特征的描述就越精确

当抽样样本数量不变时，当置信度越大，Z值就越大，置信区间就越大，说明了当抽样样本数量固定时，描述范围越大，就有足够的可能性包含真正的特征值(这个也是常识)

总的来说，对于区间估计，想要增大估计的可靠性，就会使置信区间变宽而降低精度，想要提高精度，就要求估计区间变窄，而这样估计的可靠性就会变低

walking_visitor

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
白话参数估计

参数估计的基础知识储备什么是参数估计？参数估计有哪些类型？参数估计有哪些方法？参数估计的基础知识储备正太分布(必须)、中心极限定理(非必须)什么是参数估计？参数估计是用抽取部分样本的特征，来推断样本总体的特征，举个例子，比如全国人口平均身高，这是个不可能以全体样本来统计的指标，那么就采用抽样的方式，以抽取样本内的平均身高来推断全国的平均身高，为什么说推断，而不是等于呢？假设我们抽样了多个批次，那么每个批次计算出来的平均身高大体是不会相同的，我们可以知道的是：每个批次所计算
复制链接

扫一扫

专栏目录