为什么样本大小很重要

样本大小指在一次实验研究中参与个体或收集记录的数量。样本大小很重要,因为它会直接影响估计总体参数的精度。本文针对该主题,通过示例让你对样本大小、置信度、置信区间有基本的理解。

什么是置信区间

实际应用中通常对衡量总体参数感兴趣,总体参数是描述总体的一些特征。

假如我们想了解某个地区所有人员的平均身高。但如果对每个人进行测量太费时费力,通常做法是从总体随机抽取一些样本,然后使用样本估计总体参数。
举例,我们在城市中随机抽取100人,收集样本的身高数据。然后计算样本的平均身高,但我们不能确定样本均值就是总体均值。当然样本选取要有代表性,不能产生幸存者偏差,本文不讨论样本抽取方法。

考虑到不确定性,我们可以使用置信区间。置信区间是包含具有一定置信水平的总体参数值范围。

总体均值置信区间计算公式:

置信区间 = x ‾ + / − z ∗ ( s / n ) \overline{x} +/- z*(s/\sqrt{n}) x+/z(s/n )

  • x ‾ \overline{x} x 样本均值
  • z 选择的z值(又称为标准分数)
  • s 样本标注差
  • n 样本大小

选择的z值取决于你选择的置信水平,下表显示了常用置信水平/(置信度)对应的z值:

置信水平(Confidence Level)z-value
0.901.645
0.951.96
0.992.58

样本大小与置信区间

假设要估计海龟种群的平均重量。我们随机收集了一些海龟样本,并提供了以下信息:

样本大小为n=25
样本平均重量为 x ‾ \overline{x} x=300磅
样本标准差为s=18.5

下面计算90%置信度的总体平均重量的置信区间:

  • 90%置信区间:300 +/- 1.644*(18.5/ 25 \sqrt{25} 25 ) = [293.91, 306.09]

这表示有90%把握说明海龟总体真实平均重量在 [293.91, 306.09]范围。

现状假设我们收集了50个样本,而不是25个样本,那么再次计算90%置信度的置信区间:

  • 90%置信区间:300 +/- 1.644*(18.5/ 50 \sqrt{50} 50 ) = [295.79, 304.30]

我们看到这个置信区间比上面的更窄,也就是说这个估计比上面更精确。下面我们再次加大样本数据,计算100个样本的置信区间:

  • 90%置信区间:300 +/- 1.644*(18.5/ 100 \sqrt{100} 100 ) = [296.96, 303.04]

100个样本比上面更精确了。我们看下表三个范围对比:

样本大小90% 置信宽度
2512.18
508.51
1006.08

结论是:样本量越大,我们就能越精确地估计总体参数。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值