置信区间、置信水平、边际误差

假设

  • 真实比例为 p ,取值范围为 01
  • 观测到的比例(如抽样)的比例为 p^ (在统计理论中通常使用“帽子”也标志某数据的估值)
  • 边际误差为 ϵ

所要求解的问题是:真实的比例 p 落在置信区间 [p^ϵ,p^+ϵ] 的概率。

落在置信区间的标准通用采用 95%,这一数字被称为置信水平,表达我们对 p 成功落入区间的信息程度。

区间公式通过以下求解:

p=p^±1.96×p^(1p^)n=p^±ϵ

  • 也可根据边际误差推测样本容量
  • n 表示样本中的个体数量
  • 公式表示未知的真实比例 p 有 95% 的概率落入 p^±ϵ,也就是说,每 20 个这样的区间,平均有 19 个区间中有 p ,只有 1 个不在区间中。

值得注意的是,边际误差 ϵ 会随着样本容量的增加而减小,因此,访问的民众越多,民调就越可信。

95%1.9699%2.58

来看一个具体的示例,对 1000 人进行民调,有 400 人支持总统。 p^=0.4 n=1000 ,将其带入公式,置信区间就变为:

p=p^±1.96p^(1p^)n=0.4±0.03

许多民调的边际误差都保持在 3% 左右,这并非巧合。置信水平为 95%,则系数为 1.96,如果观测比例 p^ 与 0.5 接近,比如在 0.3 和 0.7 之间, p^(1p^) 的平方根大约为 0.5。而 1.96 约等于 2,两者相乘的结果大概是 1,边际误差就约为 1n

ϵ=1n

假设样本容量约为典型的 1000,边际误差就是 3%( 110000.03 ).

1. 具有欺骗性质的统计数据

如果在一项民调中,50.5%的人表达了对加入欧盟的支持。也即为了得出此结论,必须将边际误差降到 0.5%(下界不会跌破 50%),导致置信水平只有 25%.

这里的样本人数仍为 1000,则置信水平在 0.25 时的 Z 为 0.32,则其边际误差为:

0.320.510000.005

另一个没有代表性的样本例子是假设你在你家附近做晚间散步,发现你看到的 20 人里有 14 个人都在遛狗,可以得出 70% 的邻居都养狗了吗?

1.96×0.7×0.3200.2008

再来看一个典型的案例,2005 年秋天,媒体报道小布什总统的支持率首次跌破 40%(好像这个 40% 是一个十分精确的数值一样)。从某种程度上是毫无意义的声明。虽然(抽样调查的)事实可能是前次民调显示支持率为 41%,下次结果则为 39%,这些数字的边际误差都是 3%,若建立其相关的置信区间,在部分区间上数值是重复的。没有边际误差的 41% 和 39% 不能说明一切,只有被我们表述为区间 [38, 44](41%),[36, 42](39%)时才有意义。不仅如此,我们也不能排除两次民调间支持率其实是存在上升的情况。

只有当差异大到完全超过边际误差(区间没有重叠)时,才能被称为具有统计显著性

  • 6
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五道口纳什

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值