在商业环境中,数据人员通常会收集一些数据,比如用户在网站上花费的时间,然后计算关于这些数据的一些统计数据,比如在网站上花费的平均或中值时间,最后呈现这些总结向业务提供统计数据。然而假设检查了 500 个会话,并计算出用户在网站上平均花费 10 分钟。你确定如果收集更多的数据,这个 10 分钟的平均值不会改变吗?是否偶然目睹了一个不可代表的样本?如果等到周末也收集数据,这会不会可能有所不同。我们怎么知道我们是否有足够的数据呢?如何量化我们对其计算的平均值、中位数等的信心?
数据方差和标准差
低标准偏差表明数据点往往接近平均值。很明显,如果我们收集的数据点更接近真实的平均值,我们往往对这个平均值更有信心。直观地演示一下,将生成两组 500 个正态分布的数据点,均值为 10,但一组的标准差为 1,另一组的标准差为 3。然后使用直方图绘制它们。
我们不需要广泛的统计知识就可以得出结论,我们可以对标准差较低的数据集(蓝色直方图)与标准差较高的数据集(橙色直方图)的平均值更有信心。
数据量大小(N)
当我们有数百万用户访问我们的网站时,我们计算他们花费的平均时间,结果是 10 分钟;如果我们随机抽取几个会话,比如说 5 个会话,它们的平均值不会正好是 10 分钟。如果我们抽取了 10,000 个会话的样本&#x