正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。高斯在研究测量误差时从另一个角度导出了它。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
正态分布单峰与分布的均值、中位数和众数相对应。它的离散程度可以用标准差表示。
将一般正态分布转化成标准正态分布。
服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。
定义
一维正态分布
若随机变量 服从一个位置参数为 、尺度参数为 的概率分布,且其概率密度函数为
则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作读作
服从 ,或 服从正态分布。
标准正态分布
当 时,正态分布就成为标准正态分布
分布曲线
图形特征
- 集中性:正态曲线的高峰位于正中央,即均数所在的位置。
- 对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
- 均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。
关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
参数含义
正态分布有两个参数,即期望(均数)μ和标准差σ,为方差。
正态分布具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布记作N(μ,σ2)。
μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数、中位数、众数相同,均等于μ。
σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
面积分布
1、实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同 范围内正态曲线下的面积可用公式计算。
2、正态曲线下
- 横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
P{|X-μ|<σ}=2Φ(1)-1=0.6826
- 横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。
P{|X-μ|<2σ}=2Φ(2)-1=0.9544
- 横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
P{|X-μ|<3σ}=2Φ(3)-1=0.9974
正态分布需要的条件:
如果一个数据集满足以下四个标准,那么它就接近于正态分布
- 大多数数值集中于均值附近,使分布有一个良好的单峰;
- 数值均匀地分布在均值周围,使分布对称
- 与均值的离差越大,出现的概率就越小,形成分布逐渐减小的尾部;
- 个别数值是由多种不同的因素共同作用造成的,如遗传和环境因素
正态分布的3原则(68-95-99.7规则):
- 大约68(更精确的是68.3%)或者大概2/3的数值落在距均值1个标准差的区间内
- 大约95%(更精确的是95.4%)的数值落在距均值2个标准差的区间内。
- 大约99.7%的数值落在距均值3个标准差的区间内。
计算标准分数:
某一数值大于或小于均值的标准差个数叫作标准分数(或z值)。标准分数的计算公式为
z= 标准分数 = (数值一均值) / 标准差
数值大于均值时,标准分数为正;数值小于均值时,标准分数为负
百分位数:
如果某一特定数值满足在全部数据中小于等于它的比率为n%,那么该数值的最小可能取值便是第n百分位数。处于两个百分位数之间的数据,我们称其位于更低的百分位上。
中心极限定理:
假设在任意分布(没有必要是正态分布)中,对某一变量随机选取了容量为n的若干样本,并记录每个样本均值的分布,那么:
- 在大样本情况下,均值的分布将近似于正态分布;
- 在大样本情况下,均值分布的均值近似等于总体均值p
- 在大样本情况下,均值分布的标准差为a/根号n,其中a为总体标准差。