正态分布的由来及推导

最新推荐文章于 2025-05-13 11:51:30 发布

STcyclone

最新推荐文章于 2025-05-13 11:51:30 发布

阅读量2.6w

点赞数 30

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/STcyclone/article/details/85239630

本文深入探讨了正态分布的由来与特性，包括其数学推导、中心极限定理、最小二乘法的关系、基于独立性和旋转对称性的推导、Lindeberg-Lévy中心极限定理，以及正态分布的加法定理和性质。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正态分布的由来及推导

一、正态分布

正态分布是一个在数学、物理学、天文学、社会统计学、生物学、工程实践中都有很广泛应用的概率分布。一些概率分布的极限分布为正态分布，许多误差的分布服从正态分布，许多随机变量的叠加也服从正态分布。正态分布有着相当好的稳定性，只要数据中正态分布的形式已经形成，累加其他小的扰动，均比较容易继续保持正态分布。正态分布具有十分优美的性质和公式，总是在生活中或理论中自然而然地出现。
下面给出正态分布的密度函数，并且推导出正态分布矩母函数、特征函数、期望及方差：
$若X服从正态分布N(\mu,\sigma^2),则f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
$引理1.1：\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt=\sqrt{2\pi}$
$证明：(\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt)^2=\int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}e^{-\frac{x^2+y^2}{2}}dxdy$
$=\int_{0}^{2\pi}d\theta \int_{0}^{+\infin}e^{-\frac{r^2}{2}}rdr$
$=2\pi \int_{0}^{+\infin}e^{-\frac{r^2}{2}}rdr$
$=2\pi (-e^{-\frac{r^2}{2}}\mid_{0}^{+\infin})$
$=2\pi$
$因此\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt=\sqrt{2\pi}$
$定理1.2:M(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}$
$证明:M(t)=\int_{-\infin}^{+\infin}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}e^{tx}dx$
$=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^{+\infin}e^{-\frac{(x-\mu)^2}{2\sigma^2}+tx}dx$
$令w=\frac{x-\mu}{\sigma}$
$原式=\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+t(w\sigma+\mu)}dw$
$=e^{\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+t\sigma w}dw$
$=e^{\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-t\sigma)^2-t^2\sigma^2}{2}}dw$
$=e^{\mu t+\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-t\sigma)^2}{2}}dw$
$=e^{\mu t+\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\sqrt{2\pi}$
$=e^{\mu t+\frac{t^2\sigma^2}{2}}$
$定理1.3:\varphi(t)=e^{i\mu t-\frac{t^2\sigma^2}{2}}$
$\varphi(t)=\int_{-\infin}^{+\infin}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}e^{itx}dx$
$=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^{+\infin}e^{-\frac{(x-\mu)^2}{2\sigma^2}+itx}dx$
$令w=\frac{x-\mu}{\sigma}$
$原式=\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+it(w\sigma+\mu)}dw$
$=e^{i\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+it\sigma w}dw$
$=e^{i\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-it\sigma)^2+t^2\sigma^2}{2}}dw$
$=e^{i\mu t-\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-it\sigma)^2}{2}}dw$
$=e^{i\mu t-\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\sqrt{2\pi}$
$=e^{i\mu t-\frac{t^2\sigma^2}{2}}$
$M'(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}(\mu+\sigma^2t)$
$性质1.1:EX=M'(0)=\mu$
$M''(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}(\mu+\sigma^2t)^2+e^{\mu t+\frac{t^2\sigma^2}{2}}\sigma^2$
$EX^2=M''(0)=\mu^2+\sigma^2$
$性质1.2:DX=EX^2-(EX)^2=\sigma^2$
$特别地, X 服从标准正态分布 N (0, 1) 时$
$M(t)=e^{\frac{t^2}{2}}$
$\varphi(t)=e^{-\frac{t^2}{2}}$
$E X = 0, D X = 1$

二、二项分布的近似计算

独立的重复n次的伯努利实验，每次实验只有成功和失败两种结果，每次实验成功的概率为p，n次实验的成功总次数称为二项分布B(n,p)。二项分布在应用数学中有极其重要的作用
根据组合数学的知识，可以得出二项分布的概率分布
$B(n,p;i)=\binom{n}{i}p^i(1-p)^{n-i}$
由于二项式系数的计算比较复杂，在n很大的时候采用这个公式计算比较繁琐，而求解 $\sum_{i=a}^{b} B(n,p;i)$ 则更为麻烦，数学家们考虑如何近似计算这个概率。
运用斯特林公式
$\sqrt{2\pi n}(\frac{n}{e})^n$
可以简化单个B(n,p;i)二项式系数的近似计算，但是多个B(n,p;i)的计算还是需要更有效的近似计算方法
不妨设n为偶数,令n=2m,在n趋于无穷大的情况下，考虑 $B(n,m+d,\frac{1}{2})$ 如何计算
$定理2.2:B(n,m+d,\frac{1}{2})≈B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}}$
$证明：B(n,m+d,\frac{1}{2})=B(2m,m+d,\frac{1}{2})$
$=B(2m,m,\frac{1}{2})\frac{\Pi_{i=1}^{d}(m-i+1)}{\Pi_{i=1}^{d}(m+i)}$
$=B(2m,m,\frac{1}{2})\frac{\Pi_{i=1}^{d}(1+\frac{-i+1}{m})}{\Pi_{i=1}^{d}(1+\frac{i}{m})}$
$由于 l n (1 + x) = x + o (x)$
$因此1+x=e^{x+o(x)}$
$因此B(n,m+d,\frac{1}{2})=B(2m,m,\frac{1}{2})e^{\sum_{i=-d+1}^{-1}\frac{i}{m}+\sum_{i=-d}^{-1}\frac{i}{m}+o(\frac{d}{m})}$
$=B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}+o(\frac{d}{m})}$
$≈B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}}$
$将斯特林公式 (2.1) 代入 (2.2) 式，得到$
$B(n,m+d,\frac{1}{2})≈\frac{1}{\sqrt{\pi m}}e^{-\frac{d^2}{m}}$
$即B(n,\frac{n}{2}+d,\frac{1}{2})≈\frac{\sqrt{2}}{\sqrt{\pi n}}e^{-\frac{2d^2}{n}}$
$因此说明了，p=\frac{1}{2}时，二项分布的极限分布是正态分布。$
$数学史上正态分布的发展就源于二项分布的近似计算逼近。$

三、De Moivre-Laplace中心极限定理

$对于p不等于\frac{1}{2}的一般情况，则可用稍微复杂的类似方法推导，可以得到如下定理$
$设S_{n}服从二项分布B(n,p),q=1-p，则对任意实数x有，$
$定理3.1：\lim_{n \rightarrow \infin}P(\frac{S_{n}-np}{\sqrt{npq}}\leqslant x)=\frac{1}{\sqrt{2 \pi}}\int_{-\infin}^{x} e^{-\frac{t^2}{2}}dt=\Phi(x)$
$其中\Phi(x)是标准正态分布的分布函数$
$下面再用矩母函数的方法证明上述定理：$
$设Z_{n}=\frac{S_{n}-np}{\sqrt{npq}}$
$由于B(1,p)的矩母函数为pe^t+q$
$根据和的分布的矩母函数性质，B(n,p)的矩母函数为(pe^t+q)^n$
$因此，Z_{n}的矩母函数为(pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}})^{n}$
$由于e^{x}=1+x+\frac{x^2}{2!}+\frac{x^3}{3!}+o(x^3)$
$pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}}$
$=p(1+\frac{qt}{\sqrt{npq}}+\frac{(\frac{qt}{\sqrt{npq}})^2}{2!}+\frac{(\frac{qt}{\sqrt{npq}})^3}{3!}+o((\frac{qt}{\sqrt{npq}})^3))+q(1+\frac{-pt}{\sqrt{npq}}+\frac{(\frac{-pt}{\sqrt{npq}})^2}{2!}+\frac{(\frac{-pt}{\sqrt{npq}})^3}{3!}+o((\frac{-pt}{\sqrt{npq}})^3))$
$=1+\frac{t^2}{2n}+\frac{o(\frac{t^3}{n^{\frac{3}{2}}})}{n}$
$因此\lim_{n \rightarrow \infin}M_{Z_{n}}=\lim_{n \rightarrow \infin}(pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}})^{n}=e^{\frac{t^2}{2}}$
$根据定理1.2,M_{Z_{n}}的极限与标准正态分布的矩母函数相同$
$因此Z_{n}依概率收敛于标准正态分布，定理3.1成立$

四、最小二乘法与正态分布

日常生活中经常会遇到曲线拟合问题，也就是给定若干组观测数据，需要找到一个函数，对这些观测数据进行拟合。
为了比较拟合方法的优劣，我们需要找到一种方法度量拟合的优良性。
有如下几种度量方法：
$1)\max_{i=1}^{n} |f(x_{i})-y_{i}|$
$(2)\sum_{i=1}^{n} |f(x_{i})-y_{i}|$
$(2)\sum_{i=1}^{n} (f(x_{i})-y_{i})^2$
第一种度量方法有比较复杂的逻辑比较关系，不能用普通的初等分析方法来分析，而且误差分析结果会完全被误差最大的点主导
第二种度量方法依然含有绝对值函数，绝对值函数是不可导的，需要很多种分类讨论的情况
第三种度量方法是初等函数，可以用求导等方法来分析。在各组数据误差间建立了平衡，能充分地考虑所有数据的信息。
第三种方法就是最小二乘法，在曲线拟合优良性评估中有广泛应用。
最小二乘法可以导出测量值的最优估计值是算术平均值。
$L(\theta)=\sum_{i=1}^{n} (\theta-x_{i})^2$
$\frac{\partial L(\theta)}{\partial \theta}=\sum_{i=1}^{n}2(\theta-x_{i})$
$\frac{\partial L(\theta)}{\partial \theta}=0时$
$L(\theta)最小，此时\hat{\theta}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\bar{x}$
算术平均值非常优美简洁，等权重地考虑了所有独立重复测量值的情况。而高斯在研究误差分布函数时，假定误差分布导出的极大似然估计=算数平均值，然后作出了如下推导
$记误差为 e, 则误差的密度函数为 f (e)$
$L(\theta)=\Pi_{i=1}^{n}f(e_i)=\Pi_{i=1}^{n}f(x_i-\theta)$
$求极大似然估计，令\frac{\partial ln(L(\theta))}{\partial \theta}=0,则有$
$\sum_{i=1}^{n}\frac{f'(x_i-\theta)}{f(x_i-\theta)}=0$
$令g(x_i-\theta)=\frac{f'(x_i-\theta)}{f(x_i-\theta)}$
$则\sum_{i=1}^{n}g(x_i-\theta)=0$
$将\hat{\theta}=\bar{x}代入上式，则有$
$式4.1:\sum_{i=1}^{n}g(x_i-\bar{x})=0$
$在式 4.1 中取 n = 2$
$g(x_1-\bar{x})+g(x_2-\bar{x})=0$
$由于x_1-\bar{x}=-(x_2-\bar{x})$
$因此 g (x) + g (- x) = 0, g (x) 为奇函数$
$在令式4.1中n=m+1,令x_1=x_2=...=x_m=-x,x_{m+1}=mx,则$
$m g (- x) + g (m x) = 0$
$因此, 有式 4.2 : g (m x) = m g (x)$
$唯一满足式 4.2 的连续函数是 g (x) = c x$
$因此\frac{f'(x)}{f(x)}=cx$
$(l n f (x))^{'} = c x$
$两边进行积分，得$
$ln f(x)=cx^2+t$
$f(x)=te^{cx^2}$
$由于f(x)满足规范性，因此f(x)规范化后就是正态分布N(0,\sigma^2)的密度函数$

五、基于独立性和旋转对称性的推导

天文学家John Hershcel和物理学家麦克斯韦(Maxwell)考虑二维的误差分布时，考虑了两个准则：
$(5.1) : 两个坐标轴 x 轴和 y 轴的误差是相互独立的$
$(5.2) : 误差的分布在空间上具有旋转对称性，即误差的分布与空间中的方位没有关系$
$由 (5.1) 得， f (x, y) = f (x) f (y)$
$在极坐标表示下，f(x,y)=f(rcos\theta,rsin\theta)=g(r,\theta)$
$由(5.2)得，g(r,\theta)=g(r)$
$因此f(x,y)=f(x)f(y)=g(r)=g(\sqrt{x^2+y^2})$
$令 y = 0, 则有 f (x) f (0) = g (x)$
$因此f(x)f(y)=f(\sqrt{x^2+y^2})f(0)$
$因此\frac{f(x)}{f(0)}\frac{f(y)}{f(0)}=\frac{f(\sqrt{x^2+y^2})}{f(0)}$
$因此ln(\frac{f(x)}{f(0)})+ln(\frac{f(y)}{f(0)})=ln(\frac{f(\sqrt{x^2+y^2})}{f(0)})$
$令h(x)=ln(\frac{f(x)}{f(0)})$
$所以h(x)+h(y)=h(\sqrt{x^2+y^2})$
$这个方程满足两个维度距离合成的公式$
$可以得到一个可行解h(x)=ax^2$
$因此\frac{f(x)}{f(0)}=e^{ax^2}$
$由于f(0)\int_{-\infin}^{+\infin}e^{ax^2}dx=1$
$解得f(x)=\sqrt{\frac{a}{\pi}}e^{-ax^2}$
$而f(x)就是正态分布N(0,\frac{1}{\sqrt{2a}})的概率密度函数,f(x,y)则是二维标准正态分布函数$

六、Lindeberg-Lévy中心极限定理

$定理 6.1 (L i n d e b e r g - L \overset{e}{ˊ} v y 中心极限定理) :$
$记X_1,X_2...X_n是相互独立同分布的随机变量序列，且存在均值\mu和方差\sigma^2$
$S_n=\sum_{1}^{n}X_i,则对于任意的实数x有,$
$\lim_{n \rightarrow \infin}P(\frac{S_{n}-n\mu}{\sqrt{n}\sigma}\leqslant x)=\frac{1}{\sqrt{2 \pi}}\int_{-\infin}^{x} e^{-\frac{t^2}{2}}dt=\Phi(x)$
$可以用特征函数证明这个定理：$
$对于k=1,2..n,令Y_k=\frac{X_k-\mu}{\sigma}$
$则Y_k独立同分布，记为f(t),EY=0,DY=1$
$则f'(0)=iEY=0,f''(0)=i^2EY^2=-(DX+(EX)^2)=-1$
$由泰勒公式得f(t)=1-\frac{t^2}{2}+o(t^2)$
$Z_n=\frac{S_{n}-n\mu}{\sqrt{n}\sigma}=\frac{\sum_{i=1}^{n}Y_i}{\sqrt{n}}$
$f_{Z_n}(t)=(f(\frac{t}{\sqrt{n}}))^n$
$=(1-\frac{t^2}{2n}+\frac{o(t^2)}{n})^n$
$因此得到\lim_{n \rightarrow \infin}f_{Z_n}(t)=e^{-\frac{t^2}{2}},为正态分布的特征函数$
这个定理揭示出了正态分布超乎寻常的稳定性，任意同分布随机变量求和之后极限分布就是正态分布。

七、正态分布的相关定理和性质

$\sim N(\mu,\sigma^2),且a和b为实数，则aX+b \sim N(a\mu+b,a^2\sigma^2)$
$证明：M_X(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}$
$则M_{aX+b}(t)=E(e^{t(aX+b)})=e^{bt}E(e^{(ta)X}))$
$=e^{bt}e^{a\mu t+\frac{a^2t^2\sigma^2}{2}}$
$=e^{(a\mu+b) t+\frac{t^2(a\sigma)^2}{2}},为N(a\mu+b,a^2\sigma^2)的矩母函数$
$可见正态分布在线性变换后仍为正态分布$
$因此所有正态分布和退化分布 (0) 构成一个向量空间。$
$\sim N(\mu_{1},\sigma_{1}^{2}),Y \sim N(\mu_{2},\sigma_{2}^{2})，则有$
$\sim N(\mu_{1}+\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})$
$证明：M_{X+Y}(t)=M_X(t)M_Y(t)=e^{\mu_1 t+\frac{t^2\sigma_1^2}{2}}e^{\mu_2 t+\frac{t^2\sigma_2^2}{2}}$
$=e^{(\mu_1+\mu_2)t+\frac{t^2(\sigma_1^2+\sigma_2^2)}{2}},为正态分布N(\mu_{1}+\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})的矩母函数$
$\sim N(\mu_{1},\sigma_{1}^{2}),Y \sim N(\mu_{2},\sigma_{2}^{2})，则有$
$\sim N(\mu_{1}-\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})$
$证明：M_{X-Y}(t)=M_{X+(-Y)}(t)=M_X(t)M_{-Y}(t)=e^{\mu_1 t+\frac{t^2\sigma_1^2}{2}}e^{-\mu_2 t+\frac{t^2\sigma_2^2}{2}}$
$=e^{(\mu_1-\mu_2)t+\frac{t^2(\sigma_1^2+\sigma_2^2)}{2}},为正态分布N(\mu_{1}-\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})的矩母函数$