小文 | 公众号 小文的数据之旅
前几期说到统计学最大的作用是得样本而知总体,利用样本准确地预测总体,并以一定的方式说明预测结果的可靠程度。在统计学中,这预测的过程称为参数估计,通过置信水平来说明预测结果的可靠程度。
那么为什么可以用样本估计总体呢?在参数估计的过程中又要注意什么呢?首先样本来自总体,抽样要尽量保证无偏抽样,无偏样本的分布形状与总体样本相似(即估计量抽样分布的数学期望等于总体参数)。另外大数法则告诉我们,样本量越大,样本的统计量越接近总体的真值,最为极端的情况就是样本量等于总体量,样本的统计量还能不等于总体的参数吗?
参数估计的方法主要有两种,分别是点估计和区间估计。
点估计就是用样本统计量的某个取值直接作为总体参数的估计值,那么从总体中多次抽样,每个样本都有一个点估计量,那我们怎么知道哪个点估计量更接近总体的真值呢?
于是就出现了区间估计。区间估计是点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
这个区间范围也称为置信区间,那么这个区间范围多大比较合理呢?一般我们会通过置信水平,即置信区间中包含总体参数真值的次数所占的比例来衡量。比如,最为常用的95%置信水平,可以解释为由100个样本构造的总体参数的100个置信区间中,有95%的区间包含总体参数真值。
知道了这些基础的概念之后,又该如何通过样本对总体进行参数估计呢?
1、点估计
常用的统计量包括有均值、方差、变异系数、偏度和峰度等。根据已知情况,样本均值是我们能为总体均值做出的最好的估计,样本均值被称为总体均值的点估计量。同理,样本方差也被称为总体方差的点估计量。
1.1 点估计的步骤:
(1)找出特定样本大小相同的所有样本
(2)观察所有样本统计量形成的分布,然后求出统计量的期望和方差
(3)得到分布后,利用分布求出概率
1.2 样本均值的抽样分布:
如果考虑同一个总体中所有大小为n的可能样本,然后用这些样本的均值形成分布,则该分布为均值的抽样分布,我们用