关于正态分布
为什么要了解正态分布
如果刚接触统计的时候就直接学习t检验和方差分析之类的内容,肯定会有很多费解的地方。统计学是需要先理解很多基础概念和它们的实际含义,然后基于不同的前提去应用。若对基础概念没有一定的理解,很多时候会对统计方法感到迷惑。
数据呈正态分布是很多统计方法应用的前提。正态分布最开始时被用在测量误差的分析中,后来才应用到统计学,并在统计学中大放异彩。人们发现,自然界中很多变量的分布都遵循正态分布,拿人体来举例,人的身高/血压等指标的分布往往呈现正态分布。
正态分布的性质
公式和图示如下:
横轴代表该特征的取值,纵轴代表该取值出现的频率。
正态分布被广泛应用的原因在于它具有很多很好的性质,如果某变量是正态分布的,则有以下三个性质:
平均值=中位数=众数。
分布曲线中心对称,所以该特征的所有取值中,50%的值小于平均值,50%的值大于平均值。
该特征68%的值落在平均值的1个标准差内(图中的平均值是0,标准差是1, 68%的特征值会落在 [-1, 1]这个区间内),95%的值落在平均值的2个标准差内,99.7%的值落在平均值的3个标准差内。
根据这些性质,我们就