每个试图进入强大的数据科学世界的人都会遇到正态分布。在这篇文章中,我将以一种非常清晰的方式解释它到底是什么,我们如何解释它,以及为什么它作为一个每个数据科学家都必须意识到的概念具有巨大的重要性。
什么是正态分布?
正态分布也被称为高斯分布或钟形曲线(因为它看起来像一个钟),这是统计学中最重要的概率分布,就像我们在大自然中经常看到的那样,它有点神奇。例如,身高、体重、血压、测量误差、智商得分等都服从正态分布。
还有一个跟它相关的,并且非常重要的概念,叫中心极限定理,这将在以后的文章中讨论。
现在,参考上面的图像,并了解一个正常变量的值是如何分布的。这是一个对称分布,其中大多数观测值聚集在具有最高发生概率的中心峰(均值/平均值)附近,并且当我们在两个方向上都偏离中心峰时,我们看到曲线尾部出现值的可能性越来越小。此图描绘了一个群体的智商水平,可以理解,智商水平非常低或智商水平很高的人很少见,并且大多数人都