文章目录
我们经常在各种数理统计习题或者噪声理论分析中见到正态分布 (Normal Distribution),又名高斯分布 (Gaussian Distribution),它往往是作为条件被直接给出,被理所当然的拿来使用。可以肯定的是,有某些非常重要的东西在知识传承的过程中被人为抹去了,这也是为什么我要开始记录总结我的学习过程。另外一个很重要的原因是我本人的记忆力在衰退,很多知识不常使用,已经忘得七七八八,开这一档系列博客,一是希望能完整的阐述理论里的精华,把我体会到的那种美感保留下来,二是希望给自己做一份参考工具书,要用的时候就常回来看看,省得再费劲从哪个犄角旮旯里回忆了。系列第一篇,就从高斯分布开始。
一、茴字的五种写法-正态分布的推导[1]
正态分布的存在非常广泛,光看正态分布的数学式和图像,我们能过够发现其自带的对称性和普适的置信区间。正态分布可以用多种方式推出,不同的出发点能体现出正态分布的更多特点。
1.1 棣莫弗和拉普拉斯 ~ 二项分布无穷次伯努利实验的中心极限
对一个二项分布(无论其概率是否等于1/2),其 n 次伯努利实验的结果 Xn 将符合一个正态分布的形式
这是通过对求和公式在n趋近无穷时近似化简得来的。高尔顿版是二项分布伯努利实验的一个特例,其二项分布是+1和-1均有概率P=1/2,每一次小球碰撞立柱就是在进行一次伯努利实验,n次伯努利实验后小球落点的横坐标即为 Xn,多个小球代表着多次伯努利实验。由此绘制出 Xn 的取值概率分布图。
可以看出,同种性质的二项分布微观累加并作用于宏观整体将产生正态分布,体现出宏观整体的不确定性。这条性质在2.1中被证明可以有更大的作用范围,不再局限于二项分布。
1.2 高斯(1809)~ 真实值极大似然估计(等价于算术平均、最小二乘)[2]
为求L的极大值,对 L先取对数ln再求导取导数为0,此时必为L的极值。
高斯使用了假设,暴力将算术平均代入为极大似然估计的解,陷入了循环论证,但是万一暴力代入没有问题,这将定性说明正态分布、极大似然估计与算术平均最小二乘确实存在某种关系
1.3 赫歇尔 (1850) 和麦克斯韦(1860) ~ 空间几何独立性与旋转对称性
再根据概率密度积分为1求出A,根据均值和方差定义求出均值和方差即可。
赫歇尔-麦克斯韦没有利用任何概率论知识,只是基于假设的空间几何的不变性,就推导出了正态分布。合理外推,空间或时间中连续的同种不确定性叠加将产生正态分布
1.4 电气工程师兰登(1941)~ 噪声增量式中心极限
兰登根据观察到的噪声电压分布现象,提出随机噪声的两个准则,进而推出噪声分布的概率密度函数是正态分布,通过客观的自然现象佐证了正态分布的存在。他的准则指出,微小的累加随机噪声并不改变已经形成的稳定分布模式,只改变分布层级(用方差衡量)
1.5 杰恩斯 ~ 最大熵
想看完整推导的请自行查阅相关资料[3]。描述一个随机事件的不确定度,就比如投一枚硬币,两面概率相同时我们最不确定硬币会朝向哪一面,此时随机事件的信息熵最大,而正面概率为P和正面概率为1-P的对称情况在直观上不确定性是相同的,香农定义的信息熵公式很好的描述了这种自然现象,并在log底为2时正好转为二进制bit数来计量。正态分布在给定均值和方差时拥有最大熵,这和宇宙不自觉熵增不相而合,正因如此正态分布才会广泛存在。列举一些最大熵原理和数学统计的联系。
二、正态分布的稳定性
2.1 林德伯格-列维中心极限定理-正态分布的产生条件及其内部稳定性
在1.1中我们得出结论:同种性质的二项分布微观累加并作用于宏观整体将产生正态分布。事实上,这并不局限于二项分布,接下来将介绍和证明,只要是同种性质(均值,方差)不确定性的微观累加并作用于宏观整体就会产生稳定的正态分布。这就是我们熟知的中心极限定理。
我将通过傅里叶变换来证明中心极限定理,原始出处我不想找文献了,这个是别人的笔记[4]
中心极限定理已经揭示了正态分布的产生条件,即同种性质(均值、方差)不确定性的微观累加并作用于宏观整体。只要求均值和方差相同体现了正态分布的内部稳定性,即正态分布的形成不强求完全一样的不确定性微粒,而只要相似即可。
2.2 正态分布之间的运算性质-外部稳定性[5]
在自然条件下,一定范围内的所有微粒具有相同的均值和方差,大量微粒累加组成的宏观整体自然而然走向正态分布,这是同一个正态分布系统走向的必然,是命运所在。多个正态分布系统之间的相互作用又怎样呢?正态分布系统之间的许多运算结果也是正态分布形式,这也是另一个正态分布广泛存在的理由。
证明一:两正态分布系统概率密度相乘(频域的卷积)得到的新系统概率密度是幅值伸缩的正态分布概率密度形式。
证明二:两个正态分布系统的线性组合(实域的卷积)还是正态分布系统。
参考文献
[1] https://cosx.org/2013/01/story-of-normal-distribution-1/
[2] The Normal Distribution: A derivation from basic principles, Dan Teague , The North Carolina School of Science and Mathematics
[3] https://mp.weixin.qq.com/s?__biz=MzI2NjE0MTY0MA==&mid=2652727021&idx=2&sn=afa2e8a604ee22525a6c2472aaa6bb72&chksm=f17b6c4ac60ce55c31b01ebf796c6edd39e0fda697be4c2a2cfea0b9729e2f394bc3ee28251d&scene=27
[4] https://www.cnblogs.com/TaigaCon/p/5014957.html
[5] https://blog.csdn.net/weixin_40064300/article/details/129516762
读后谈
本篇指出,大量同均值、方差的不确定性微粒累加作用于整体,将使整体的不确定性呈正态分布,这个正态分布一经形成,在内部是稳定的,在外部和其他正态分布相互作用时也保持着相当的稳定性。而自然界中,一定范围的自然条件是相同的,并且物质由大量微粒构成,正态分布得以广泛存在,这是规定均值和方差后熵增的必然结果。因此我们在分析各种数据时,经常会使用正态分布,比如分析噪声影响时假设的高斯白噪声。
如果有机会,会再单独开一篇讲讲正态分布的抽样,在课本上就是大家都学过的抽样估计,然后导出统计学三大分布(卡方分布,T分布,F分布),研究一下他们的性质和作用。如果我有更想研究的方向,那这个计划就无限期搁浅,写这篇的原因本身就是解决对正态分布本身的困惑。毕竟“吾生也有涯,而知也无涯 。以有涯随无涯,殆已!”