喜欢文章?不如来点赞关注吧
统计推断
这一节我们以睡眠为例。假设你通常每晚睡 8 个小时,你突然做了年轻爸爸或者年轻妈妈,你的睡眠时间减少到每晚 5 个小时,这意味着每晚减少 3 个小时,相当于每周 20 个小时,每年 1000 个小时,差不多 40 天。换言之,如果你家宝宝继续保持他 / 她的睡眠时间,一年之后你会比之前少睡 大约 40 天。
回到统计学,想象你想要知道你家乡的年轻父母在孩子刚出生那一年减少了多少睡眠。在这一节中我们将讨论统计推断。我们会基于样本信息,得出关于总体的结论。我们将会区分两种统计推断的方法,一种叫 统计估计 (statistical estimation) ,另一种叫 假设检验 (hypothesis testing) 。在这篇教程中,我们将先了解统计估计。
有两种方式估计总体参数的值,其一叫 点估计 (point estimate) ,它是一个对于总体参数的最佳猜想。其二是 区间估计 (interval estimate) ,它是一个我们预期参数会落在的范围。
想象我们抽取了 60 个受试者样本,有了第一个小孩后每晚减少的睡眠小时数均值为 2.6 小时。这个均值是一个对于总体均值很好的点估计。换言之,
区间估计是一个最有可能包含总体实际参数值的数字区间。基于我们的样本均值 2.6 小时,我们可以预测,比如说,你家乡新生儿父母每晚睡眠减少的平均小时数介于 2.3 小时到 2.9 小时之间。
这个区间包含总体参数值的概率,被我们称为 置信水平 (confidence level) ,置信水平总是一个接近 1 的值,多数情况下是 0.95 。接下来我们将讨论有 95% 置信水平的区间。
已知总体标准差,求均值的置信区间
假设我们知道 60 个年轻父母的样本在第一个小孩出生后睡眠减少小时数的标准差是 0.9 小时,也知道总体的标准差是 1.1 小时。(实践中,不太可能知道这个参数,但这里我们先假定你知道)
这一节中,我们将学习如何基于样本信息和总体的标准差来构造 置信区间 (confidence interval) 。首先,我们来解释一下这样一个置信区间应该如何解读。
为了构造一个置信区间,我们需要用到样本均值的抽样分布。毕竟,我们是在处理一个来自总体的样本。 我们知道,只要样本足够大,抽样分布就是正态分布的,并且均值等于总体的均值,标准差等于总体的标准差除以样本数 n 的平方根。我们还知道,找到距离样本均值少于等于两个标准差的概率是 0.95 。更精确的,如果查询对应概率的 z 分数,我们会得到 -1.96 和 1.96 。
这意味着我们有 95% 的机会令样本均值落在总体均值 1.96 个标准差范围内。 1.96 个标准差的距离我们称为