1. 正态分布的定义
正态分布:The Normal Distribution,假设一随机变量X服从一个期望为
则可记为:
import
(1)正态分布为什么常见?真正原因是中心极限定理(Central Limit Theorem)。根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。
(2)正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会相互影响,那么就不是正态分布了。ps:如果各种因素对结果的影响不是相加的,而是相乘,那么最终结果不是正态分布,而是对数正态分布。
2. 试验:高尔顿钉板
弗朗西斯·高尔顿爵士(1822-1911),查尔斯·达尔文的表弟,英格兰维多利亚时代的生物统计学家。他发明了一个叫高尔顿钉板的装置,展示了正态分布的产生过程:高尔顿钉板是一种装置,它是一个木盒子,里面均匀的分布若干个钉子。从入口处把小球导倒入钉板,弹珠往下滚的时候,撞到钉子就会随机选择往左走还是往右走,一颗弹珠一路滚下来会多次选择方向,最终的分布会接近正态分布。
高尔顿钉板有两处细节:
- 顶上只有一处开口。这是要求弹珠的起始状态一致,即要求同分布。
- 开口位于顶部中央。这倒无所谓,开在别的位置,分布形态不变,只是平移。
用代码实现高尔顿钉板,其中:
- 有n个小球
- 盒子宽度为box_width
- 盒子内部有钉子为row_count行和col_count列
问题的本质是:给定一个初始状态,执行row_count次随机增减,最终得到的数组满足正态分布。
高尔顿钉板可以做出一些改动,变动之后仍然满足正态分布。比如移动开口的水平位置;或者改变小球碰到钉子之后的随机性,即便是不均匀的分布依旧最终也会形成正态分布。
import
自然界为何如此多的变量都服从正态分布?因为每一个变量都是由一系列随机变量组成的。例如人的身高是由饮食、气候、基因等很多独立变量组成,这些独立变量就像钉子一样一层一层独立的摆放,最初人的身高是固定的,就像从中间下滑的小球,经过多次随机因素之后,人的身高就变成了正态分布。
每个人都相信它(正态分布):实验工作者认为它是一个数学定理,数学研究者认为它是一个经验公式。-- 加布里埃尔·李普曼
正态分布是么有道理的,它是一种经验分布。
3. 正态性检验:
3.1 偏度与峰度方法
偏度(Skewness)描述数据分布不对称的方向及其程度。
- 当偏度≈0时,可认为分布是对称的,服从正态分布;
- 当偏度>0时,分布为右偏,即拖尾在右边,峰尖在左边,也称为正偏态;
- 当偏度<0时,分布为左偏,即拖尾在左边,峰尖在右边,也称为负偏态;
注意:数据分布的左偏或右偏,指的是数值拖尾的方向,而不是峰的位置,容易引起误解。
峰度(Kurtosis):描述数据分布形态的陡缓程度。
- 当峰度≈0时,可认为分布的峰态合适,服从正态分布(不胖不瘦);
- 当峰度>0时,分布的峰态陡峭(高尖);
- 当峰度<0时,分布的峰态平缓(矮胖);
利用偏度和峰度进行正态性检验时,可以同时计算其相应的Z评分(Z-score),即:偏度Z-score=偏度值/标准误,峰度Z-score=峰度值/标准误。在α=0.05的检验水平下,若Z-score在±1.96之间,则可认为资料服从正态分布。
了解偏度和峰度这两个统计量的含义很重要,在对数据进行正态转换时,需要将其作为参考,选择合适的转换方法。
3.2 正态性检验:P-P图和Q-Q图方法
P-P图反映了变量的实际累积概率与理论累积概率的符合程度,Q-Q图反映了变量的实际分布与理论分布的符合程度,两者意义相似,都可以用来考察数据资料是否服从某种分布类型。若数据服从正态分布,则数据点应与理论直线(即对角线)基本重合。
3.3 正态性检验:非参数检验方法
正态性检验属于非参数检验,原假设为“样本来自的总体与正态分布无显著性差异,即符合正态分布”,也就是说P>0.05才能说明资料符合正态分布。
通常正态分布的检验方法有两种,一种是Shapiro-Wilk检验,适用于小样本资料(SPSS规定样本量≤5000),另一种是Kolmogorov–Smirnov检验,适用于大样本资料(SPSS规定样本量>5000)。
4. 大数定理与中心极限定理
4.1 定义
大数定理(Law of Large Numbers):采样足够多的时候,
中央极限定理(Central Limit Theorem):采样足够多的时候,
4.2 代码实现
我们以抛骰子为例,抛出多次后,抛出的骰子趋于点数3.5(大数定理)。假设每次抛出20次骰子,求这20次骰子的和,那么抛出多次后,此和的分布趋近于正态分布(中心极限定理)。
# 随机的抛六面的骰子,出现的点数最后趋于均值3.5
# 随机的抛六面的骰子,计算三次点数的和的分布:
4.3 公式推导
傅里叶变换及其应用(斯坦福大学)讲义中3.6,3.7节有关于卷积和中心极限定理的证明。
其3.6节(Convolution in Action III: The Central Limit Theorem)
Convolution and probability density functions: The probability density function of the sum of two independent random variables is the convolution of the probability density functions of each. 两个独立随机变量和的概率密度函数是这两者概率密度函数的卷积。
因此,无独立变量的概率密度函数卷积在一起就是它们和的概率密度函数,也就是一个正态分布(高斯分布)。
其3.7节(The Central Limit Theorem: The Bell Curve Tolls for Thee)
中心极限定理的证明: