正态分布(Normal Distribution),又称高斯分布(Gaussian Distribution),是统计学和概率论中最重要的连续概率分布之一。
1. 基本概念
-
命名来源:
- 正态分布:强调其在自然界和社会科学中的普遍性(许多现象近似服从该分布)。
-
核心特性:
-
对称性:以均值为中心,左右对称的钟形曲线。
-
集中趋势:均值(μ)决定分布的中心位置。
-
离散程度:标准差(σ)决定曲线的“宽窄”,σ越大,数据越分散。
-
2. 概率密度函数(PDF)
正态分布的概率密度函数为:
-
参数:
-
μ(均值):分布的中心位置。
-
σ(标准差):数据的离散程度。
-
-
标准正态分布:当 μ=0、σ=1 时,称为标准正态分布,记为
Z∼N(0,1)。
3. 重要性质
-
经验法则(68-95-99.7规则):
-
约68%的数据落在 μ±σ 内,
-
约95%的数据落在 μ±2σ 内,
-
约99.7%的数据落在 μ±3σ 内。
-
-
中心极限定理:
- 多个独立随机变量的均值趋于正态分布(即使原数据非正态),这是统计学中许多方法的理论基础。
4. 应用场景
-
自然科学:测量误差、身高/体重分布、分子运动等。
-
社会科学:考试成绩、经济指标(如收入分布近似对数正态)。
-
工业领域:质量控制(如六西格玛管理)。
-
金融领域:资产收益率建模(虽存在厚尾现象,但常作为简化假设)。
5. 与其他分布的关系
-
对数正态分布:若 ln(X) 服从正态分布,则 X 服从对数正态分布。
-
t分布:当样本量较小时,用于估计均值(类似正态但尾部更厚)。
-
二项分布近似:当试验次数大时,可用正态分布近似(需满足 np≥5 且 n(1-p)≥5)。
6. 注意事项
-
非万能分布:实际数据可能呈现偏态、多峰或厚尾(如金融数据),此时需其他分布(如幂律分布、t分布)。
-
检验正态性:可通过Q-Q图、Shapiro-Wilk检验或Kolmogorov-Smirnov检验验证数据是否符合正态分布。
示例图
正态分布曲线