目录
参数估计的基础知识储备
正太分布(必须)、中心极限定理(非必须)
什么是参数估计?
参数估计是用抽取部分样本的特征,来推断样本总体的特征,举个例子,比如全国人口平均身高,这是个不可能以全体样本来统计的指标,那么就采用抽样的方式,以抽取样本内的平均身高来推断全国的平均身高,为什么说推断,而不是等于呢?
假设我们抽样了多个批次,那么每个批次计算出来的平均身高大体是不会相同的
我们可以知道的是:每个批次所计算出来的平均身高多数会分布在真正的平均身高附近,少数情况会里真正的平均身高较远
其实,仔细思考一下,多个抽样批次所计算出来的平均身高,他们所组成的分布是符合高斯分布的,统计学上的中心极限定理也说明了这点。
参数估计有哪些类型?
总的来说有点估计和区间估计两个类型,
点估计
延续上面的例子,我们假设用抽样的样本所计算出的平均身高,当成是全国的平均身高,这个就叫做点估计,那么仔细思考下,点估计是有一定问题的,
比如:抽样样本的平均身高很可能是不等于真实的全国平均身高的,我们需要给出一个指标,来说明这个点估计的可靠性,如点估计的可靠性是99%,这样一来我们就会觉的这个点估计比较靠谱。然而比较可惜,可靠性这个指标我们没法去计算。
区间估计
那么在点估计的基础上,我们计算出一个区间,也就是点估计的左右、或者说上下的浮动区间,然后在给这个区间加个可靠性说明,叫做 置信度,这个区间叫做置信区间 ,那么这个方法就叫做区间估计。好了那么接下来就是如何确定这个区间、以及这个区间的可靠性--置信度了。
上面,我们提到 多个抽样批次所计算出来的平均身高,他们所组成的分布是符合高斯分布的 这是个很重要的理论,也是区间估计的依靠理论。所以我们可以将多次抽样的平均身高,描述为 ,
是总体样本的均值,
是总体样本的方差,n是抽样的数量。
那么为什么多次抽样的平均身高可以用总体样本的均值描述呢,方差又为什么用总体方差除以n呢?熟悉中心极限定理的肯定对这个没啥疑问了,
我们来简单思考一下:
如果抽样次数足够多的话,多个批次的抽样样本,所计算出来的平均身高 的平均值,是等于总体样本的均值的,因此抽样样本的高斯分布,其均值就可以用总体样本的均值表示。
另外,当进行抽样的时候,如果每次抽取的样本数量 n 足够大,那么抽样样本的均值,是非常接近总体样本的均值的,其波动范围可以认为是很小的,而就描述了均值
的浮动范围,总体样本的方差大小是固定的,抽样样本数量n越大,那么其波动范围就越小。
好了,我们继续
在区间估计开头,我们说到 “在点估计的基础上,我们计算出一个区间,也就是点估计的左右、或者说上下的浮动区间 ,然后在给这个区间加个可靠性说明,叫做 置信度,这个区间叫做置信区间 ”
置信区间是围绕 点估计的浮动区间,我们认为是左右浮动,且左右浮动的幅度是相等的,即置信区间关于点估计对称,样本均值是点估计,求置信区间就是求以
为中心的左右浮动区间。
那么置信度、置信区间到底是什么?又该怎么理解呢?
我们刚才说到点估计是有缺点的,他没有可靠性的衡量,所以我们提出了区间估计,用区间来描述总体的特征,用置信度这个可靠性指标来描述这个区间的可信程度。
比方说:
点估计-----抽样样本计算出的平均身高为170cm,推断全国人民的平均身高为170cm,他没有可靠性指标衡量,所以我们觉得不够靠谱。
区间估计-----抽样样本计算出的平均身高区间为[160cm~180cm],可靠程度为95%。也就是说在每次抽样条件不变的情况下,进行100次的抽样所计算出的平均身高区间,有95次都会包含真正的全国人民平均身高,注意是平均身高区间会包括真正的平均身高,[160cm~180cm] 是某一次抽样所计算出来的平均身高区间,真正的全国人民平均身高到底在不在这个区间呢,其实并不知道,你不能说[160cm~180cm]有95%的可能性包含真正的全国人民平均身高,这个理解是不对的。
以上对于区间估计的理解非常重要~~~~也是整个参数估计的核心思想
我们知道标准正太分布概率密度曲线是关于均值对称的,置信区间就是围绕这个
左右浮动的区间,置信区间所对应的面积就是置信度
我们假设知道了总体的方差,在总体中抽取了n个样本,n>30,根据抽样样本计算出的样本均值为
,求依据本次抽样,计算一下,在95%置信度下的置信区间是多少?
求置信区间有个前提条件需要指定,就是置信度,95%置信度、90%置信度所求出来的置信区间肯定是不一样的。
由于标准正太分布我们很熟悉了,某一区间所对应的面积(概率),可以通过查表获得,那么问题就转换为普通正太分布转换为标准正太分布的问题了,即:
换个角度转换成置信区间的表达式:
,
就是均值,
是总体样本标准差,n是本次抽样的样本数量,
是置信度,
就是置信区间右边界对应的Z值。
称为置信下限,
称为置信上限。
依据置信区间的表达式呢,我们继续分析一下:
由于总体样本方差是固定的,当抽样样本数量无限大时,置信区间几乎为0,说明了抽样样本均值的波动范围几乎没有,抽样样本均值几乎等于总体样本均值
当置信度固定,越大置信区间越窄,抽样均值的波动范围就越窄,说明抽样特征对总体特征的描述就越精确
当抽样样本数量不变时,当置信度越大,Z值就越大,置信区间就越大,说明了当抽样样本数量固定时,描述范围越大,就有足够的可能性包含真正的特征值(这个也是常识)
总的来说,对于区间估计,想要增大估计的可靠性,就会使置信区间变宽而降低精度,想要提高精度,就要求估计区间变窄,而这样估计的可靠性就会变低