让我爽爽-深入理解正态分布(高斯分布)本质

我们经常在各种数理统计习题或者噪声理论分析中见到正态分布 (Normal Distribution),又名高斯分布 (Gaussian Distribution),它往往是作为条件被直接给出,被理所当然的拿来使用。可以肯定的是,有某些非常重要的东西在知识传承的过程中被人为抹去了,这也是为什么我要开始记录总结我的学习过程。另外一个很重要的原因是我本人的记忆力在衰退,很多知识不常使用,已经忘得七七八八,开这一档系列博客,一是希望能完整的阐述理论里的精华,把我体会到的那种美感保留下来,二是希望给自己做一份参考工具书,要用的时候就常回来看看,省得再费劲从哪个犄角旮旯里回忆了。系列第一篇,就从高斯分布开始。

一、茴字的五种写法-正态分布的推导[1]

正态分布的存在非常广泛,光看正态分布的数学式和图像,我们能过够发现其自带的对称性和普适的置信区间。正态分布可以用多种方式推出,不同的出发点能体现出正态分布的更多特点。
请添加图片描述

请添加图片描述

1.1 棣莫弗和拉普拉斯 ~ 二项分布无穷次伯努利实验的中心极限

对一个二项分布(无论其概率是否等于1/2),其 n 次伯努利实验的结果 Xn 将符合一个正态分布的形式
请添加图片描述
这是通过对求和公式在n趋近无穷时近似化简得来的。高尔顿版是二项分布伯努利实验的一个特例,其二项分布是+1和-1均有概率P=1/2,每一次小球碰撞立柱就是在进行一次伯努利实验,n次伯努利实验后小球落点的横坐标即为 Xn,多个小球代表着多次伯努利实验。由此绘制出 Xn 的取值概率分布图。
请添加图片描述
可以看出,同种性质的二项分布微观累加并作用于宏观整体将产生正态分布,体现出宏观整体的不确定性。这条性质在2.1中被证明可以有更大的作用范围,不再局限于二项分布。

1.2 高斯(1809)~ 真实值极大似然估计(等价于算术平均、最小二乘)[2]

请添加图片描述
为求L的极大值,对 L先取对数ln再求导取导数为0,此时必为L的极值。
请添加图片描述
请添加图片描述
高斯使用了假设,暴力将算术平均代入为极大似然估计的解,陷入了循环论证,但是万一暴力代入没有问题,这将定性说明正态分布、极大似然估计与算术平均最小二乘确实存在某种关系

1.3 赫歇尔 (1850) 和麦克斯韦(1860) ~ 空间几何独立性与旋转对称性

请添加图片描述
请添加图片描述请添加图片描述

请添加图片描述
再根据概率密度积分为1求出A,根据均值和方差定义求出均值和方差即可。
请添加图片描述
赫歇尔-麦克斯韦没有利用任何概率论知识,只是基于假设的空间几何的不变性,就推导出了正态分布。合理外推,空间或时间中连续的同种不确定性叠加将产生正态分布

1.4 电气工程师兰登(1941)~ 噪声增量式中心极限

请添加图片描述
请添加图片描述
兰登根据观察到的噪声电压分布现象,提出随机噪声的两个准则,进而推出噪声分布的概率密度函数是正态分布,通过客观的自然现象佐证了正态分布的存在。他的准则指出,微小的累加随机噪声并不改变已经形成的稳定分布模式,只改变分布层级(用方差衡量)

1.5 杰恩斯 ~ 最大熵

请添加图片描述
想看完整推导的请自行查阅相关资料[3]描述一个随机事件的不确定度,就比如投一枚硬币,两面概率相同时我们最不确定硬币会朝向哪一面,此时随机事件的信息熵最大,而正面概率为P和正面概率为1-P的对称情况在直观上不确定性是相同的,香农定义的信息熵公式很好的描述了这种自然现象,并在log底为2时正好转为二进制bit数来计量。正态分布在给定均值和方差时拥有最大熵,这和宇宙不自觉熵增不相而合,正因如此正态分布才会广泛存在。列举一些最大熵原理和数学统计的联系。
请添加图片描述
请添加图片描述

二、正态分布的稳定性

2.1 林德伯格-列维中心极限定理-正态分布的产生条件及其内部稳定性

在1.1中我们得出结论:同种性质的二项分布微观累加并作用于宏观整体将产生正态分布。事实上,这并不局限于二项分布,接下来将介绍和证明,只要是同种性质(均值,方差)不确定性的微观累加并作用于宏观整体就会产生稳定的正态分布。这就是我们熟知的中心极限定理。
请添加图片描述
请添加图片描述
我将通过傅里叶变换来证明中心极限定理,原始出处我不想找文献了,这个是别人的笔记[4]
请添加图片描述
中心极限定理已经揭示了正态分布的产生条件,即同种性质(均值、方差)不确定性的微观累加并作用于宏观整体。只要求均值和方差相同体现了正态分布的内部稳定性,即正态分布的形成不强求完全一样的不确定性微粒,而只要相似即可。

2.2 正态分布之间的运算性质-外部稳定性[5]

在自然条件下,一定范围内的所有微粒具有相同的均值和方差,大量微粒累加组成的宏观整体自然而然走向正态分布,这是同一个正态分布系统走向的必然,是命运所在。多个正态分布系统之间的相互作用又怎样呢?正态分布系统之间的许多运算结果也是正态分布形式,这也是另一个正态分布广泛存在的理由。
请添加图片描述
证明一:两正态分布系统概率密度相乘(频域的卷积)得到的新系统概率密度是幅值伸缩的正态分布概率密度形式。
请添加图片描述
证明二:两个正态分布系统的线性组合(实域的卷积)还是正态分布系统。
请添加图片描述

参考文献

[1] https://cosx.org/2013/01/story-of-normal-distribution-1/
[2] The Normal Distribution: A derivation from basic principles, Dan Teague , The North Carolina School of Science and Mathematics
[3] https://mp.weixin.qq.com/s?__biz=MzI2NjE0MTY0MA==&mid=2652727021&idx=2&sn=afa2e8a604ee22525a6c2472aaa6bb72&chksm=f17b6c4ac60ce55c31b01ebf796c6edd39e0fda697be4c2a2cfea0b9729e2f394bc3ee28251d&scene=27
[4] https://www.cnblogs.com/TaigaCon/p/5014957.html
[5] https://blog.csdn.net/weixin_40064300/article/details/129516762

读后谈

本篇指出,大量同均值、方差的不确定性微粒累加作用于整体,将使整体的不确定性呈正态分布,这个正态分布一经形成,在内部是稳定的,在外部和其他正态分布相互作用时也保持着相当的稳定性。而自然界中,一定范围的自然条件是相同的,并且物质由大量微粒构成,正态分布得以广泛存在,这是规定均值和方差后熵增的必然结果。因此我们在分析各种数据时,经常会使用正态分布,比如分析噪声影响时假设的高斯白噪声。
如果有机会,会再单独开一篇讲讲正态分布的抽样,在课本上就是大家都学过的抽样估计,然后导出统计学三大分布(卡方分布,T分布,F分布),研究一下他们的性质和作用。如果我有更想研究的方向,那这个计划就无限期搁浅,写这篇的原因本身就是解决对正态分布本身的困惑。毕竟“吾生也有涯,而知也无涯 。以有涯随无涯,殆已!”

Kolmogorov-Smirnov检验可以用于检验一个样本是否符合正态分布。在进行Kolmogorov-Smirnov检验时,我们将样本的累计分布函数与正态分布的累计分布函数进行比较,通过计算两者之间的最大差值来判断是否存在显著性差异。如果最大差值小于临界值,则接受原假设,即样本符合正态分布;如果最大差值大于临界值,则拒绝原假设,即样本不符合正态分布。\[3\] 需要注意的是,Kolmogorov-Smirnov检验是一种非参数检验方法,不需要事先知道数据的分布情况。因此,在样本量较小的情况下,Kolmogorov-Smirnov检验是一种常用的方法来分析样本是否符合正态分布。\[3\] #### 引用[.reference_title] - *1* *3* [KS-检验(Kolmogorov-Smirnov test) -- 检验数据是否符合某种分布](https://blog.csdn.net/weixin_33849215/article/details/85816750)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Kolmogorov–Smirnov test](https://blog.csdn.net/fireblue1990/article/details/51136277)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值