【读书笔记->统计学】12-02 置信区间的构建-t分布概念简介

t分布

假设一个情境:我们想知道糖球的典型重量。但由于只有一家糖果店提出要求,因此只抽取了包含10颗具有代表性的样本,然后称了每一粒糖球的重量。这个样本的 x ‾ = 0.5 盎司 , s 2 = 0.09 \overline{x}=0.5盎司, s^2=0.09 x=0.5盎司,s2=0.09

老样子:

第1步:选择总体统计量

我们需要为糖球重量均值构建一个置信区间,也就是要为总体均值 μ \mu μ构建置信区间。由于需要求 μ \mu μ的置信区间,于是下一步就是求 μ \mu μ的抽样分布—— X ‾ \overline{X} X的分布。

第2步:求 X ‾ \overline{X} X的概率分布

这里我们碰到问题,从上面的快捷运算表可以得知,当总体分布 X X X本身符合正态分布时,我们未知总体方差 σ 2 \sigma^2 σ2,需要用点估计量 s 2 s^2 s2代替,但是条件是n很大(至少30),这条路走不通了❌

另一个问题是,样本太小了,估计值很可能出现较大误差——比使用大样本的误差要大得多。这些潜在的误差意味着使用正态分布无法得出足够精确的 X ‾ \overline{X} X的概率,那样就无法得出精确的置信区间。

那么, X ‾ \overline{X} X符合哪种分布呢?实际上,它符合t分布。

当样本很小时, X ‾ \overline{X} X符合t分布

当总体分布符合正态分布, σ 2 \sigma^2 σ2未知,且可供支配的样本很小时, X ‾ \overline{X} X符合t分布。

t分布是外形光滑、对称的曲线,确切形状取决于样本大小。当样本很大时,t分布外形很像正态分布;当样本很小时,曲线较为扁平,有两条粗粗的尾巴。它只有一个参数——v,v=n-1。n为样本的大小,v被称为自由度

下面这张图,对应了各种v对应的t分布。

在这里插入图片描述

“T符合t分布且自由度为v”的简明表示方法为:
T ∼ t ( v ) T \sim t(v) Tt(v)
(T为检验统计量,计算方法见下;t(v)表示:我们正在使用自由度为v的t分布;v=n-1)

t分布的使用方法与正态分布相似——先将概率区间的上下限转化为标准分,然后用概率表求出所需要的结果。

求t分布的标准分

t分布的标准分的计算方法与正态分布的标准分的计算方法相同。像处理正态分布一样,我们先减去抽样分布的期望,然后用所得到的差除以标准差。唯一的差别是,我们用T而不是Z代表结果,这是为了配合t分布的使用。

我们需要求出 X ‾ \overline{X} X的分布(详细见:上章,样本均值的概率),于是要用到 X ‾ \overline{X} X的期望和标准差。 X ‾ \overline{X} X的期望为 μ \mu μ,标准差为 σ / n \sigma/\sqrt{n} σ/n 。由于需要用s估计 σ \sigma σ的数值,于是t分布的标准分的算式如下:

在这里插入图片描述

我们只要代入 X ‾ , σ ^ \overline{X}, \hat{\sigma} X,σ^和n就行了。

已知v=n-1=9, s 2 = 0.09 s^2=0.09 s2=0.09,则
T = X ‾ − μ s / n = X ‾ − μ 0.09 / 10 = X ‾ − μ 0.0949 T = \frac{\overline{X}-\mu}{s/\sqrt{n}} \\ = \frac{\overline{X}-\mu}{\sqrt{0.09/10}} \\ = \frac{\overline{X}-\mu}{0.0949} T=s/n Xμ=0.09/10 Xμ=0.0949Xμ
第3步:决定置信水平

置信水平指的是你希望自己对“置信区间包含总体统计量”这个说法有多大信心。像上面一样,让我们用95%作为总体均值的置信水平,于是总体均值位于置信区间之中的概率为0.95。

在这里插入图片描述

第4步:求出置信上下限

t分布的置信上下限的算法类似于正态分布的算法,即可通过下式进行计算:

在这里插入图片描述

我们可以通过t分布概率表求出t值。

使用t分布概率表

通过t分布概率表可求出P(T>t)中的t值。在我们的实例中,p=0.025。

为了求出t值,先从概率表中查找第一列的v值,再查找第一行的p值,二者的交点处即为t值。例如,查找v=7和p=0.05,可得t=1.895。

求出t值后,就能求置信区间了。

在这里插入图片描述

t分布与正态分布比较

在用小样本估计总体方差时,t分布更精确。

基于小样本估计 σ 2 \sigma^2 σ2有一个问题,即可能无法精确地反映总体方差的真实值。也就是说,我们需要让区间变宽,以便在置信区间中留出一些误差空间。

t分布的形状随着v值发生变化,由于考虑了样本的大小,即使 σ 2 \sigma^2 σ2的估计精度存在各种足以让人有所察觉的不确定性,t分布也能忽略不计。当n很小时,t分布给出的置信区间比正态分布的置信区间更宽,这使它更适合用于小样本。

置信区间简明算法——t分布

下面是有关t分布的使用时机以及 μ \mu μ的置信区间的简单提示。

在这里插入图片描述

为了求出t(v),需要查找t分布概率表。为此,用v=n-1和你确定下来的置信水平求出置信区间。

例题解答

在这里插入图片描述

另一道例题

在这里插入图片描述

问:如果样本大小n发生改变,对置信区间会有何影响?

答:如果n减小,则置信区间变宽;如果n增大,则置信区间变窄。

置信区间的表达式为:
统计量 ± 误差范围 统计量 \pm 误差范围 统计量±误差范围
其中,误差范围 = c * 统计量的标准差

统计量的标准差取决于样本的大小——n越大,统计量的标准差越小;这就是说,n越大误差范围越小,n越小误差范围越大。

一般说来,较小的样本形成较宽的置信区间,较大的样本形成较窄的置信区间。


总结

我们现在学会了两种估计总体统计量的方法了。

  • 上一章,我们学会使用点估计量,点估计量方法可用于估计总体统计量的精确数值,是根据样本数据又可能做出的最好预测。
  • 这一章,我们学会使用总体统计量的置信区间。这个方法得到的并非总体统计量的精确估计,而是求出总体统计量的一个有较高可信度的数值范围。
  • 0
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值