你真的知道什么是置信区间吗?

在商业环境中,数据人员通常会收集一些数据,比如用户在网站上花费的时间,然后计算关于这些数据的一些统计数据,比如在网站上花费的平均或中值时间,最后呈现这些总结向业务提供统计数据。然而假设检查了 500 个会话,并计算出用户在网站上平均花费 10 分钟。你确定如果收集更多的数据,这个 10 分钟的平均值不会改变吗?是否偶然目睹了一个不可代表的样本?如果等到周末也收集数据,这会不会可能有所不同。我们怎么知道我们是否有足够的数据呢?如何量化我们对其计算的平均值、中位数等的信心?

数据方差和标准差

低标准偏差表明数据点往往接近平均值。很明显,如果我们收集的数据点更接近真实的平均值,我们往往对这个平均值更有信心。直观地演示一下,将生成两组 500 个正态分布的数据点,均值为 10,但一组的标准差为 1,另一组的标准差为 3。然后使用直方图绘制它们。

不同标准差的正态分布图

我们不需要广泛的统计知识就可以得出结论,我们可以对标准差较低的数据集(蓝色直方图)与标准差较高的数据集(橙色直方图)的平均值更有信心。

数据量大小(N)

当我们有数百万用户访问我们的网站时,我们计算他们花费的平均时间,结果是 10 分钟;如果我们随机抽取几个会话,比如说 5 个会话,它们的平均值不会正好是 10 分钟。如果我们抽取了 10,000 个会话的样本,那么平均持续时间将更接近 10 分钟的实际平均值。

直观地演示这一点。从均值 = 10,标准差 = 3 的正态分布中生成 10 个样本,每个样本包含 5 个数据点。

小样本;均值差异更大

正如预期的那样,样本均值无处不在。现在,如果使用更大的样本 50 个数据点,则均值将向真实均值收敛,如下图所示。

大样本;均值差异较小

标准差和样本量是影响计算统计量置信度的两种因素,标准误是一种测量方法来组合这两种因素。

标准误

标准误是标准差除以样本量的平方根。

数据的方差越大,对计算统计量的置信度就越低;样本量越小,置信度就越低。在这里,我们从具有恒定均值 (10) 但不同标准差 (1 或 3) 的总体中抽取 4 个样本。样本也有不同的大小(5 或 50)。

置信区间

我们可以使用标准误差来判断均值可能在 [Mean — STD.Error, Mean + STD.Error]。然而,为什么不扩大我们的范围成为 [Mean — 2STD.Error, Mean + 2STD.Error]。对于正态分布,大约 68% 的数据落在一个标准差(这里指抽样分布的标准差,即标准误)内,大约 95% 的数据落在均值的两个标准差内。这些数字来自正态分布的形状,并表示为 Z 分数。如果检查这些分数,会发现 Z-Score 为 1 的置信度约为 68%,分数为 2(准确地说是 1.96)给出的置信度为 95%,而分数为 2.58 的置信度为 99%。

简单地说,我们有 95% 的信心认为均值落在 [Mean — 1.96STD.Error, Mean + 1.96STD.Error],并且有 99% 的信心认为均值落在更宽的范围内 [Mean — 2.58STD.Error, Mean + 2.58STD.Error]。这些范围就是我们所说的置信区间。

如果是非正态数据呢?

到目前为止,我们一直在使用来自正态分布的数据。在现实生活中,数据很少来自正态分布。该如何处理这些情况呢?中心极限定理指出,如果我们有一个均值为 μ 的数据,我们从这些数据中取出多个样本,并计算每个样本的均值,无论原始数据的形状,这个均值的抽样分布将是正态分布,其分布的均值等于 μ。因此,无论原始数据的形状如何,这里重要的分布都将是正态分布。然而,中心极限定理不适用于中位数或分位数,因为它适用于均值或总和。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值