简单理解正态分布(概率密度函数)和68-95-99.7法则

正太分布和概率密度函数,期望值,方差

正态分布(Normal distribution),又名高斯分布(Gaussian distribution)是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量1
正态分布的形状由平均值 μ \mu μ和方差 σ 2 \sigma^2 σ2所决定。

一个 服从 随机变量 X X X的正态分布可以写成
X ~ N o r m a l ( μ , σ 2 ) ; o r X ~ N ( μ , σ 2 ) X~Normal(\mu, \sigma^2); or X~N(\mu, \sigma^2) XNormal(μ,σ2);orXN(μ,σ2)
正态分布的概率密度函数(Probability density function,PDF),以及期望值(Expected value)和方差(Varience)如下


正态分布的概率密度函数,期望值 E(X), 方差 Var(X)

随机变量 X X X服从正态分布时,他的概率密度函数可以表示为
f X ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2  or  f X ( x ) = 1 2 π ⋅ σ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) ( − ∞ < × ∞ ) f_{X}(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} \text { or } f_{X}(x)=\frac{1}{\sqrt{2 \pi} \cdot \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)(-\infty<\times \infty) fX(x)=2π σ1e2σ2(xμ)2 or fX(x)=2π σ1exp(2σ2(xμ)2)(<×)
*e是自然数大约为2.718
*期待值 E ( X ) = μ E(X)=\mu E(X)=μ
*方差 V a r ( X ) = σ 2 Var(X)=\sigma^2 Var(X)=σ2


正态分布例
我们知道相同环境下的一组数据中,每个人的身高是服从正态分布的。
假定随机抽取A地区成年男性的随A机变量为X,X服从平均值 μ = 171 c m , 方 差 σ 2 = 64 \mu=171cm,方差\sigma^2=64 μ=171cmσ2=64的正态分布。
我们就可以写成 X ~ N ( 171 , 64 ) X~N(171, 64) XN(171,64)
可以求出这个分布的概率密度函数,期望值和方差

  • 概率密度函数
    f X ( x ) = 1 2 π × 8 e − ( x − 172 ) 2 2 × 8 2 = 1 8 2 π e − ( x − 172 ) 2 128 f_X(x)=\frac{1}{\sqrt{2\pi}\times8}e^{-\frac{(x-172)^2}{2\times8^2}}=\frac{1}{8\sqrt{2\pi}}e^{-\frac{(x-172)^2}{128}} fX(x)=2π ×81e2×82(x172)2=82π 1e128(x172)2
  • 期望值
    E ( x ) = μ = 171 E(x)=\mu=171 E(x)=μ=171
  • 方差
    V a r ( x ) = σ 2 = 64 Var(x)=\sigma^2=64 Var(x)=σ2=64

68-95-99.7法则

对于正态分布,分别有68%,95%,99.7%的几率在平均值±1标准偏差( μ ± 1 σ \mu\pm1\sigma μ±1σ), μ ± 2 σ \mu\pm2\sigma μ±2σ μ ± 3 σ \mu\pm3\sigma μ±3σ的范围内发生概率事件。(一组数据有68%的几率落在( μ ± 1 σ \mu\pm1\sigma μ±1σ)的范围里)

范围概率
μ ± 1 σ \mu\pm1\sigma μ±1σ68%
μ ± 2 σ \mu\pm2\sigma μ±2σ95%
μ ± 3 σ \mu\pm3\sigma μ±3σ99.7%

接着上述的实例,随机抽取xx地区成年男性的随机变量为X,X服从平均值 μ = 171 c m , 方 差 σ 2 = 64 \mu=171cm,方差\sigma^2=64 μ=171cmσ2=64的正态分布。可以知道这里的标准偏差 σ \sigma σ也就是8。

平均值前后1倍标准偏差 σ \sigma σ的范围是163~179,所以我们可以知道A地区有68%的成年男性身高范围在163cm以上179cm以下。
换句话说,随机抽取A地区的一位成年男性,他的身高在163~179范围的几率为68%。
正态分布可以表示为如下图。
163~179cm的比例
另外,这个正态分布的曲线,是通过上述的概率函数求得:
f X ( x ) = 1 8 2 π e − ( x − 172 ) 2 128 f_X(x)=\frac{1}{8\sqrt{2\pi}}e^{-\frac{(x-172)^2}{128}} fX(x)=82π 1e128(x172)2
对这个概率函数在163~179的范围内进行积分可以得到
∫ 163 179 1 8 2 π e − ( x − 171 ) 2 128 d x ≈ 0.683 \int_{163}^{179} \frac{1}{8 \sqrt{2 \pi}} e^{-\frac{(x-171)^{2}}{128}} d x \approx 0.683 16317982π 1e128(x171)2dx0.683
这里也可以看出这个概率大约为68%

同样我们也可以求出平均值±2倍标准偏差( μ ± 2 σ \mu\pm2\sigma μ±2σ)的的范围在155~187cm,所以知道A地区的有95%的成年男性身高在155~187cm范围。
我们也可以说随机抽取A地区以为成年男性,他的身高在155~187cm的几率为98%。
在这里插入图片描述

最后同样,因为平均值±3标准偏差( μ ± 2 σ \mu\pm2\sigma μ±2σ)为147~195。
我们可以知道A地区有99.7%的成年男性的身高在147~195cm范围内,如下图。
在这里插入图片描述

总结

  • 同样我们也可以通过积分概率密度函数求得某个固定区域身高的发生概率。
  • 68-95-99.7%法则表示了数据落在某个范围的概率,他与95%CI置信区间的含义不一样,注意不要混淆。关于与95%CI的区别会另外讨论。
  • 这里讨论的正态分布都是假定这组数据是服从正太分布的,实际一组实验数据是否服从正态分布需要做正态分布的检验,比如做Shapiro-Wilk正态检验,或者制作分位图进行分析(Q-Q plot)。

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。


  1. Wikipedia ↩︎

  • 29
    点赞
  • 76
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cykaede

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值