高斯分布&正态分布

原创已于 2023-04-30 10:03:03 修改

· 4.2w 阅读

359 ·

版权

文章标签：

#机器学习 #概率论 #算法 #人工智能

于 2021-07-11 19:05:57 首次发布

数学基础专栏收录该内容

7 篇文章

订阅专栏

文章目录

0 高斯分布定义
1 高斯分布意义
2 高斯分布的概率密度函数推导

高斯分布又叫正态分布，是统计学中最重要的连续概率分布。有的地方将正态分布也称为常态分布，什么意思呢？从字面上看确实不太直观，如果我们各取一字变为“正常分布”，就清晰明了了。即我们生活中常见的事物和现象都呈现出中间密集、两边稀疏的特征，如身高、体重、家庭收入等，拿身高来说，服从高斯分布意味着大多数人的身高都会在人群的平均身高上下波动，特别高和特别矮都比较少见。这是为什么呢？因为我们研究的对象的特征往往是趋同的，即存在一个基准；但是由于个体变异的存在，这些特征又不是完全一致，因此会以一定的幅度在基准的上下波动，从而形成中间密集、两边稀疏的特征。

研究表明，在物理科学和经济学中，大量数据的分布通常是服从高斯分布，所以当我们对数据潜在分布模式不清楚时，可以优先用高斯分布近似或精确描述。

高斯分布属于“连续型随机变量分布”的一类，连续型随机变量是研究“区间概率”，而不是“点概率”。还是拿身高举例，比如某小学学校学生的身高，理论上它可以取任意正数，所以我们把它当做一个连续型随机变量看待。如果我们想计算P(X=1.2)=? 即身高恰好等于1.2的概率是多少？这就是“点概率”；如果随机变量Y是[0, 1]这个区间上的任意一点，那么Y的取值是多少个呢？显然，无数多个，因此Y取某一值的概率是1除以无数，即可以看做是0。因此，连续型随机变量取任意某个确定的值的概率均为0。所以，低于连续型随机变量，我们一般不去研究某个特定值的概率，即点概率，而是去研究某一区间的概率，即区间概率。

高斯分布的作用在于给定某个值在特定范围内的概率，它是一种研究误差服从一个什么样的分布。

0 高斯分布定义

高斯分布相关概念在高中数学学到过，估计大家都忘了差不多，先稍微回顾下。

假设随机变量X服从高斯分布，即
$X\sim N(\mu ,\sigma^{2} )$
其概率密度函数为：
$f(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{x-\mu }{\sigma })^{2}}\\$
$其中，\sigma为总体标准差，\mu为总体均值，\\ \pi为3.14159，e为2.71828$

在这里插入图片描述
以上高斯分布的概率密度曲线取决于两个因素：均值和标准差。分布的均值决定了图形中心的位置，标准差决定了图像的高度和宽度。标准差大时，曲线呈现出“矮胖”，标准差小时，曲线呈现出“高瘦”。因此通过改变均值和标准差，根据其概率密度函数得到不同的高斯分布，如下图所示。
在这里插入图片描述
那么高斯分布曲线具有什么样的性质呢？
①曲线下的总面积为1
②随机变量X等于任何特定值的概率为0
③X大于a的概率等于以a为界到正无穷大的曲线下的面积
④X小于a的概率等于从负无穷大到以a为界的曲线下的面积

此外，高斯分布（无论其均值和标准差如何）都符合以下性质
①大约 68% 的曲线下面积落在平均值的 1 个标准偏差内
②大约 95% 的曲线下面积落在平均值的 2 个标准差内
③大约 99.7% 的曲线下面积落在平均值的 3 个标准差内

这些点统称为经验法则或 68-95-99.7 法则。显然，给定一个高斯分布，大多数结果将在平均值的 3 个标准偏差内。

NOTE: 以上，高斯分布的概率密度函数和积分都不必关注，这些只是作为我们的辅助理解，真正需要关注的是均值和方差。

标准形式
标准化也称z变换，通过标准化，所有服从一般高斯分布的随机变量都变成了服从均值为0，标准差为1的标准高斯分布。经过标准化后，原来曲线的形状不会改变，只是位置发生了平移。

因为改变 μ 和 σ 的效果只是使曲线沿 x 轴移动，或者只是分别加宽或缩小它。因此，我们可以定义一个新的随机变量 Z 来适应这些变化：
$z=(x-\mu)/\sigma$
以上，z称为标准化高斯分布，是高斯分布的一种特例，其中标准的高斯分布的随机变量称为标准分数或者z分数，每个高斯随机变量X可以通过以上等式转换为z-score。就这个标准变量而言，高斯分布可以简化为
$f(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}z^{2}}$
这个分布的参数为 μ=0，σ=1，因此Z∼N(0,1)。

1 高斯分布意义

首先举几个小栗子：
①在高尔顿钉板实验中，从漏斗形上口掉落的小球会遇上一系列排列成三角形的“钉子”。每当小球从正上方下落到一个“钉子”上时，它总是会有50%的概率跑到左边，50%的概率跑到右边。在经过数次这样随机的“左右选择”之后，小球掉落到下方的格子中。
最终，格子中小球的数量直观地体现了这一过程的概率分布。小球落入某个格子的概率符合二项分布，而当钉子、格子和小球的数量足够多时，小球的分布会接近高斯分布。
在这里插入图片描述
②再比如，疫情期间隔离为14天，为啥一定是14天？这个数字就是来源于高斯分布；在流行病学中，疾病的潜伏期通常可以用对数高斯分布来近似，对数高斯随机分布都存在一个长尾，尽管长尾部分的概率很小但不是零，如果样本量足够大，长尾部分的小概率事件还是有可能发生的。
在这里插入图片描述

③超市某牛奶为250ml，但是实际过程中肯定会有误差，真实值是服从均值为250ml的高斯分布，但是这里的方差肯定很小，不然会招到顾客投诉；
④惊奇的是，智商测试的分数也是服从高斯分布，因此大部分人的智商都是正常的，像爱因斯坦这种聪明绝顶的属于高斯分布的顶尖；
在这里插入图片描述

生活中有好多例子都是服从高斯分布，那么高斯分布还能做些什么呢？
答案是能够估算出数据的位置。
就比如每次考试出题目，好的考卷并不是题目都很容易，或者都很难，它的目的是为了区分人才，因此这里的标准差就起到了很大的作用。

重点来啦
以上，现实世界中的现象遵循高斯（或接近高斯）分布，这使研究人员可以使用高斯分布作为评估与现实世界现象相关的概率模型。通常，分析包括两个步骤。
Step1：转换原始数据。通常，原始数据不是 z-score的形式，需要使用前面通过转换方程将它们转换为 z-score：z = (X - μ) / σ。
Step2：寻找概率。将数据转换为z-score后，可以使用标准高斯分布表、在线计算器或手持绘图计算器来查找与 z-score相关的概率。

2 高斯分布的概率密度函数推导

如上所述，高斯分布的概率密度函数为
$f(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{x-\mu }{\sigma })^{2}}$
简化形式为
$f(x)=\frac{1}{\sqrt{2\pi}\sigma }e^{-\frac{x^{2}}{2\sigma ^{2}}}$
现对以上公式进行推导。
假设误差密度函数为f(x)，现有n个独立观测值x1，x2，…，xn，真实值为x，则似然估计函数(不懂的快去补基础知识)为：
$L(x)=f(x_{1}-x)\cdot f(x_{2}-x)\cdot \cdot \cdot f(x_{n}-x)$
为了将似然估计函数取得最大值，一般求导，并将导函数等于0，即可求得极值，但是直接求导太麻烦，因此这里会做一个取对数的操作，就是为了方便计算。
所以，等式两边取对数，则有
$\sum_{i=1}^{n}lnf(x_{i}-x)$
再对x进行求导，有
$\frac{dlnL(x)}{dx}=-\sum_{i=1}^{n}\frac{f^{'}(x_{i}-x)}{f(x_{i}-x)}=0$
记
$g(x)=\frac{f^{'}(x)}{f(x)}$
则
$\sum_{i=1}^{n}g(x_{i}-x)=0$
这里，高斯做了一个大胆的假设，认为真实值x的估计为 $\overline{x}，其中\overline{x}=\frac{x_{1}+x_{2}+\cdot \cdot \cdot x_{n}}{n}$
$g(x_{1}-\bar{x})+g(x_{2}-\bar{x})+...+g(x_{n}-\bar{x})=0$
因此对上式x1进行求偏导，得
$g^{'}(x_{1}-\bar{x})\cdot (1-\frac{\partial \bar{x}}{\partial x_{1}})+g^{'}(x_{2}-\bar{x})\cdot (-\frac{\partial \bar{x}}{\partial x_{1}})+...=0$
因为
$\frac{\partial \bar{x}}{\partial x_{1}}=\frac{1}{n}$
同理，分别对x2，x3…xn进行求导，写成矩阵形式为：
$\begin{pmatrix} 1-\frac{1}{n} & -\frac{1}{n} & ... & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} & ... & -\frac{1}{n}\\ \vdots & \vdots &\ddots &\vdots \\ -\frac{1}{n} & -\frac{1}{n} & \cdots & 1-\frac{1}{n} \end{pmatrix}\begin{pmatrix} g^{'}(x_{1}-\bar{x})\\ g^{'}(x_{2}-\bar{x})\\ \vdots \\ g^{'}(x_{n}-\bar{x}) \end{pmatrix}=0$
以上为齐次线性方程组，利用齐次线性方程组性质：
$x=c\begin{pmatrix} 1,...,1 \end{pmatrix}^{\tau }$
即
$g^{'}(x_{1}-\bar{x})=g^{'}(x_{2}-\bar{x})=\cdots =g^{'}(x_{n}-\bar{x})=c$
则，g(x)=cx+b
$0=\sum_{i=1}^{n}g(x_{i}-x)=\sum_{i=1}^{n}c(x_{i}-x)+nb$
所以，b=0
因为：
$\frac{f^{'}(x)}{f(x)}=cx$
根据分离变量求解，得
$f(x)=ke^{\frac{1}{2}cx^{2}}$
由于
$\int_{-\infty }^{+\infty}f(x)dx=1$
若要收敛，则c<0
记
$c=-\frac{1}{\sigma ^{2}}$
利用
$\int_{-\infty }^{+\infty }e^{-x^{2}}dx=\sqrt{\pi }/2（需要自证）$
得
$k=\frac{1}{\sqrt{2\pi}\sigma }$
所以
$f(x)=\frac{1}{\sqrt{2\pi}\sigma }e^{-\frac{x^{2}}{2\sigma ^{2}}}$