高斯分布(正态分布)详解

一、概念

定义:随机变量X服从一个数学期望 μ \mu μ、方差为 σ \sigma σ的高斯分布,又名正态分布。当μ = 0,σ = 1时的正态分布是标准正态分布
高斯分布概率密度函数(正态随机变量概率密度函数):
f ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) f(x)=\frac {1}{\sqrt{2π}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) f(x)=2π σ1exp(2σ2(xμ)2)
在这里插入图片描述
下图为高斯密度函数的函数曲线:
在这里插入图片描述
概率密度函数:y=f(x),x 是样本特性自变量,y 是 x 在这个样本特性上的数量比例。
exp:exp 指的是自然常数 e 的幂函数,即 e 的多少次幂的概念(e 是一个无理数,也就是无限不循环小数,e≈2.71828…)。比如
e x p ( 3 ) = e 3 exp(3)=e^3 exp(3)=e3
这个函数的峰值在 x = μ x=\mu x=μ的位置,此时对应的函数值 y 为: 1 2 π σ \frac {1}{\sqrt{2π}\sigma} 2π σ1

这里样本数量的计算用的是定积分的定义,即整个函数曲线在其下方围住的与 y=0(x 轴)所围成的面积占比。它在 x = μ x=\mu x=μ 左右两侧的函数是对称的:

  • x 在 μ-σ 和 μ+σ 之间的样本数量占到整个样本数量的 68.2%;
  • x 在 μ-2σ 和 μ+2σ 之间的样本数量占到整个样本数量的 95.4%;
  • x 在 μ-3σ 和 μ+3σ 之间的样本数量占到整个样本数量的99.6%;

二、详解和例子说明

高斯分布作为分布特性的一种,首先是用来描述统计对象的,如果统计对象的分布特性符合高斯分布,那么所有针对高斯分布的定理和“经验值”就能够直接套用。而高斯分布本身在自然界的应用是非常广泛的,用一句话解释高斯分布所表现的分布特点就是“一般般的很多,极端的很少”。

这里举一个具体的例子,假如对某一地区的男性身高做了一个随机抽样,一共 1000 人,结果发现他们的身高是一个 μ=175cm 的高斯分布,σ=10cm。那么首先,这样一个描述就已经能够清晰地说明这个抽样检查的结果了,而以下结论也就随之成立(如下曲线图)。

  • 身高 165~175cm 的人(大约)有 341 名。
  • 身高 175~185cm 的人(大约)有 341 名。
  • 身高 155~165cm 的人(大约)有 136 名。
  • 身高 185~195cm 的人(大约)有 136 名。
  • 身高 145~155cm 的人(大约)有 21 名。
  • 身高 195~205cm 的人(大约)有 21 名。

在这里插入图片描述
这些数量基本已经涵盖了统计总人数的 99.6 %。需要注意的是,根据统计的情况在不同的条件下 μ 和 σ 的值可能会不同:

  • μ 较大,则整个函数图像的中轴向右挪动比较多。
  • μ 较小,则函数图像的中轴向左挪动比较多。
  • σ 较大,则整个曲线绵延比较长,整个坡度显得平缓。
  • σ 较小,整个曲线窄而立陡。

符合高斯分布的其它例子:
智商分布:智慧一般的人很多,非常聪明的人较少,非常愚笨的人也较少(在一些大公司或者重点学校里虽然整体的聪明程度提高,但是还是存在这个小范围内的高斯分布,即 μ 比较偏右,而 σ 比较小)
收入分布:全社会范围内的收入,中档次收入的人比较多,特别贫穷和特别富裕的人较少,但是他们在地域上的分布和职业类别上的分布可能就不那么均匀了。

三、判断数据是否服从高斯分布

1、看直方图! 是不是看起来像钟形?
2、计算描述性汇总度量 - 平均值,中位数和模式是否相似?
3、2/3的观察值是否位于平均值的±标准差1内? 95%的观察值是否在平均值的±2标准差范围内?

四、高斯分布实际应用

首先刚才说过,如果在统计过程中发现一个样本呈现高斯分布的特性,只需要把样本总数量、μ 和 σ 表述出来,就已经能够形成一个完整的画面感了。这对人们描述对象是有很大帮助的。还有一个好处,就是我们发现了这样一个特性以后,在生产制造、商业等领域会有很多对应性的用法能够减少不必要的投入或损失。

例如,在设计一款服装后,S/M/L/XL 这些号码怎么设计比较合理呢?设计完了制造多少较合理呢?这时就可以在抽样后在高斯分布曲线上找到这些合适的点。既然 μ-σ 和 μ+σ 之间已经占 68.2%了,那么如果没有足够的预算或者精力,可以只先尝试做一个以 μ 为标准的板式,针对一部分人打板做市场推广。因为再做 μ-σ 和 μ+σ 这两个如此不同的板式,打板成本将会再提高 2 倍,但是增益仅有不到 50%(这从概率密度函数上就可以看出来)。这其实就是一种针对市场迎合的分析和尝试,即优先做那些受众情况最一般、人数最集中的部分。

  • 4
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我宿孤栈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值