正态分布的由来及推导
一、正态分布
正态分布是一个在数学、物理学、天文学、社会统计学、生物学、工程实践中都有很广泛应用的概率分布。一些概率分布的极限分布为正态分布,许多误差的分布服从正态分布,许多随机变量的叠加也服从正态分布。正态分布有着相当好的稳定性,只要数据中正态分布的形式已经形成,累加其他小的扰动,均比较容易继续保持正态分布。正态分布具有十分优美的性质和公式,总是在生活中或理论中自然而然地出现。
下面给出正态分布的密度函数,并且推导出正态分布矩母函数、特征函数、期望及方差:
若
X
服
从
正
态
分
布
N
(
μ
,
σ
2
)
,
则
f
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
若X服从正态分布N(\mu,\sigma^2),则f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
若X服从正态分布N(μ,σ2),则f(x)=2πσ1e−2σ2(x−μ)2
引
理
1.1
:
∫
−
∞
+
∞
e
−
t
2
2
d
t
=
2
π
引理1.1:\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt=\sqrt{2\pi}
引理1.1:∫−∞+∞e−2t2dt=2π
证
明
:
(
∫
−
∞
+
∞
e
−
t
2
2
d
t
)
2
=
∫
−
∞
+
∞
∫
−
∞
+
∞
e
−
x
2
+
y
2
2
d
x
d
y
证明:(\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt)^2=\int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}e^{-\frac{x^2+y^2}{2}}dxdy
证明:(∫−∞+∞e−2t2dt)2=∫−∞+∞∫−∞+∞e−2x2+y2dxdy
=
∫
0
2
π
d
θ
∫
0
+
∞
e
−
r
2
2
r
d
r
=\int_{0}^{2\pi}d\theta \int_{0}^{+\infin}e^{-\frac{r^2}{2}}rdr
=∫02πdθ∫0+∞e−2r2rdr
=
2
π
∫
0
+
∞
e
−
r
2
2
r
d
r
=2\pi \int_{0}^{+\infin}e^{-\frac{r^2}{2}}rdr
=2π∫0+∞e−2r2rdr
=
2
π
(
−
e
−
r
2
2
∣
0
+
∞
)
=2\pi (-e^{-\frac{r^2}{2}}\mid_{0}^{+\infin})
=2π(−e−2r2∣0+∞)
=
2
π
=2\pi
=2π
因
此
∫
−
∞
+
∞
e
−
t
2
2
d
t
=
2
π
因此\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt=\sqrt{2\pi}
因此∫−∞+∞e−2t2dt=2π
定
理
1.2
:
M
(
t
)
=
e
μ
t
+
t
2
σ
2
2
定理1.2:M(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}
定理1.2:M(t)=eμt+2t2σ2
证
明
:
M
(
t
)
=
∫
−
∞
+
∞
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
e
t
x
d
x
证明:M(t)=\int_{-\infin}^{+\infin}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}e^{tx}dx
证明:M(t)=∫−∞+∞2πσ1e−2σ2(x−μ)2etxdx
=
1
2
π
σ
∫
−
∞
+
∞
e
−
(
x
−
μ
)
2
2
σ
2
+
t
x
d
x
=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^{+\infin}e^{-\frac{(x-\mu)^2}{2\sigma^2}+tx}dx
=2πσ1∫−∞+∞e−2σ2(x−μ)2+txdx
令
w
=
x
−
μ
σ
令w=\frac{x-\mu}{\sigma}
令w=σx−μ
原
式
=
1
2
π
∫
−
∞
+
∞
e
−
w
2
2
+
t
(
w
σ
+
μ
)
d
w
原式=\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+t(w\sigma+\mu)}dw
原式=2π1∫−∞+∞e−2w2+t(wσ+μ)dw
=
e
μ
t
1
2
π
∫
−
∞
+
∞
e
−
w
2
2
+
t
σ
w
d
w
=e^{\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+t\sigma w}dw
=eμt2π1∫−∞+∞e−2w2+tσwdw
=
e
μ
t
1
2
π
∫
−
∞
+
∞
e
−
(
w
−
t
σ
)
2
−
t
2
σ
2
2
d
w
=e^{\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-t\sigma)^2-t^2\sigma^2}{2}}dw
=eμt2π1∫−∞+∞e−2(w−tσ)2−t2σ2dw
=
e
μ
t
+
t
2
σ
2
2
1
2
π
∫
−
∞
+
∞
e
−
(
w
−
t
σ
)
2
2
d
w
=e^{\mu t+\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-t\sigma)^2}{2}}dw
=eμt+2t2σ22π1∫−∞+∞e−2(w−tσ)2dw
=
e
μ
t
+
t
2
σ
2
2
1
2
π
2
π
=e^{\mu t+\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\sqrt{2\pi}
=eμt+2t2σ22π12π
=
e
μ
t
+
t
2
σ
2
2
=e^{\mu t+\frac{t^2\sigma^2}{2}}
=eμt+2t2σ2
定
理
1.3
:
φ
(
t
)
=
e
i
μ
t
−
t
2
σ
2
2
定理1.3:\varphi(t)=e^{i\mu t-\frac{t^2\sigma^2}{2}}
定理1.3:φ(t)=eiμt−2t2σ2
φ
(
t
)
=
∫
−
∞
+
∞
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
e
i
t
x
d
x
\varphi(t)=\int_{-\infin}^{+\infin}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}e^{itx}dx
φ(t)=∫−∞+∞2πσ1e−2σ2(x−μ)2eitxdx
=
1
2
π
σ
∫
−
∞
+
∞
e
−
(
x
−
μ
)
2
2
σ
2
+
i
t
x
d
x
=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^{+\infin}e^{-\frac{(x-\mu)^2}{2\sigma^2}+itx}dx
=2πσ1∫−∞+∞e−2σ2(x−μ)2+itxdx
令
w
=
x
−
μ
σ
令w=\frac{x-\mu}{\sigma}
令w=σx−μ
原
式
=
1
2
π
∫
−
∞
+
∞
e
−
w
2
2
+
i
t
(
w
σ
+
μ
)
d
w
原式=\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+it(w\sigma+\mu)}dw
原式=2π1∫−∞+∞e−2w2+it(wσ+μ)dw
=
e
i
μ
t
1
2
π
∫
−
∞
+
∞
e
−
w
2
2
+
i
t
σ
w
d
w
=e^{i\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+it\sigma w}dw
=eiμt2π1∫−∞+∞e−2w2+itσwdw
=
e
i
μ
t
1
2
π
∫
−
∞
+
∞
e
−
(
w
−
i
t
σ
)
2
+
t
2
σ
2
2
d
w
=e^{i\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-it\sigma)^2+t^2\sigma^2}{2}}dw
=eiμt2π1∫−∞+∞e−2(w−itσ)2+t2σ2dw
=
e
i
μ
t
−
t
2
σ
2
2
1
2
π
∫
−
∞
+
∞
e
−
(
w
−
i
t
σ
)
2
2
d
w
=e^{i\mu t-\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-it\sigma)^2}{2}}dw
=eiμt−2t2σ22π1∫−∞+∞e−2(w−itσ)2dw
=
e
i
μ
t
−
t
2
σ
2
2
1
2
π
2
π
=e^{i\mu t-\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\sqrt{2\pi}
=eiμt−2t2σ22π12π
=
e
i
μ
t
−
t
2
σ
2
2
=e^{i\mu t-\frac{t^2\sigma^2}{2}}
=eiμt−2t2σ2
M
′
(
t
)
=
e
μ
t
+
t
2
σ
2
2
(
μ
+
σ
2
t
)
M'(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}(\mu+\sigma^2t)
M′(t)=eμt+2t2σ2(μ+σ2t)
性
质
1.1
:
E
X
=
M
′
(
0
)
=
μ
性质1.1:EX=M'(0)=\mu
性质1.1:EX=M′(0)=μ
M
′
′
(
t
)
=
e
μ
t
+
t
2
σ
2
2
(
μ
+
σ
2
t
)
2
+
e
μ
t
+
t
2
σ
2
2
σ
2
M''(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}(\mu+\sigma^2t)^2+e^{\mu t+\frac{t^2\sigma^2}{2}}\sigma^2
M′′(t)=eμt+2t2σ2(μ+σ2t)2+eμt+2t2σ2σ2
E
X
2
=
M
′
′
(
0
)
=
μ
2
+
σ
2
EX^2=M''(0)=\mu^2+\sigma^2
EX2=M′′(0)=μ2+σ2
性
质
1.2
:
D
X
=
E
X
2
−
(
E
X
)
2
=
σ
2
性质1.2:DX=EX^2-(EX)^2=\sigma^2
性质1.2:DX=EX2−(EX)2=σ2
特
别
地
,
X
服
从
标
准
正
态
分
布
N
(
0
,
1
)
时
特别地,X服从标准正态分布N(0,1)时
特别地,X服从标准正态分布N(0,1)时
M
(
t
)
=
e
t
2
2
M(t)=e^{\frac{t^2}{2}}
M(t)=e2t2
φ
(
t
)
=
e
−
t
2
2
\varphi(t)=e^{-\frac{t^2}{2}}
φ(t)=e−2t2
E
X
=
0
,
D
X
=
1
EX=0,DX=1
EX=0,DX=1
二、二项分布的近似计算
独立的重复n次的伯努利实验,每次实验只有成功和失败两种结果,每次实验成功的概率为p,n次实验的成功总次数称为二项分布B(n,p)。二项分布在应用数学中有极其重要的作用
根据组合数学的知识,可以得出二项分布的概率分布
B
(
n
,
p
;
i
)
=
(
n
i
)
p
i
(
1
−
p
)
n
−
i
B(n,p;i)=\binom{n}{i}p^i(1-p)^{n-i}
B(n,p;i)=(in)pi(1−p)n−i
由于二项式系数的计算比较复杂,在n很大的时候采用这个公式计算比较繁琐,而求解
∑
i
=
a
b
B
(
n
,
p
;
i
)
\sum_{i=a}^{b} B(n,p;i)
∑i=abB(n,p;i)则更为麻烦,数学家们考虑如何近似计算这个概率。
运用斯特林公式
定
理
2.1
:
n
!
≈
2
π
n
(
n
e
)
n
定理2.1:n!≈ \sqrt{2\pi n}(\frac{n}{e})^n
定理2.1:n!≈2πn(en)n
可以简化单个B(n,p;i)二项式系数的近似计算,但是多个B(n,p;i)的计算还是需要更有效的近似计算方法
不妨设n为偶数,令n=2m,在n趋于无穷大的情况下,考虑
B
(
n
,
m
+
d
,
1
2
)
B(n,m+d,\frac{1}{2})
B(n,m+d,21)如何计算
定
理
2.2
:
B
(
n
,
m
+
d
,
1
2
)
≈
B
(
2
m
,
m
,
1
2
)
e
−
d
2
m
定理2.2:B(n,m+d,\frac{1}{2})≈B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}}
定理2.2:B(n,m+d,21)≈B(2m,m,21)e−md2
证
明
:
B
(
n
,
m
+
d
,
1
2
)
=
B
(
2
m
,
m
+
d
,
1
2
)
证明:B(n,m+d,\frac{1}{2})=B(2m,m+d,\frac{1}{2})
证明:B(n,m+d,21)=B(2m,m+d,21)
=
B
(
2
m
,
m
,
1
2
)
Π
i
=
1
d
(
m
−
i
+
1
)
Π
i
=
1
d
(
m
+
i
)
=B(2m,m,\frac{1}{2})\frac{\Pi_{i=1}^{d}(m-i+1)}{\Pi_{i=1}^{d}(m+i)}
=B(2m,m,21)Πi=1d(m+i)Πi=1d(m−i+1)
=
B
(
2
m
,
m
,
1
2
)
Π
i
=
1
d
(
1
+
−
i
+
1
m
)
Π
i
=
1
d
(
1
+
i
m
)
=B(2m,m,\frac{1}{2})\frac{\Pi_{i=1}^{d}(1+\frac{-i+1}{m})}{\Pi_{i=1}^{d}(1+\frac{i}{m})}
=B(2m,m,21)Πi=1d(1+mi)Πi=1d(1+m−i+1)
由
于
l
n
(
1
+
x
)
=
x
+
o
(
x
)
由于ln(1+x)=x+o(x)
由于ln(1+x)=x+o(x)
因
此
1
+
x
=
e
x
+
o
(
x
)
因此1+x=e^{x+o(x)}
因此1+x=ex+o(x)
因
此
B
(
n
,
m
+
d
,
1
2
)
=
B
(
2
m
,
m
,
1
2
)
e
∑
i
=
−
d
+
1
−
1
i
m
+
∑
i
=
−
d
−
1
i
m
+
o
(
d
m
)
因此B(n,m+d,\frac{1}{2})=B(2m,m,\frac{1}{2})e^{\sum_{i=-d+1}^{-1}\frac{i}{m}+\sum_{i=-d}^{-1}\frac{i}{m}+o(\frac{d}{m})}
因此B(n,m+d,21)=B(2m,m,21)e∑i=−d+1−1mi+∑i=−d−1mi+o(md)
=
B
(
2
m
,
m
,
1
2
)
e
−
d
2
m
+
o
(
d
m
)
=B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}+o(\frac{d}{m})}
=B(2m,m,21)e−md2+o(md)
≈
B
(
2
m
,
m
,
1
2
)
e
−
d
2
m
≈B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}}
≈B(2m,m,21)e−md2
将
斯
特
林
公
式
(
2.1
)
代
入
(
2.2
)
式
,
得
到
将斯特林公式(2.1)代入(2.2)式,得到
将斯特林公式(2.1)代入(2.2)式,得到
B
(
n
,
m
+
d
,
1
2
)
≈
1
π
m
e
−
d
2
m
B(n,m+d,\frac{1}{2})≈\frac{1}{\sqrt{\pi m}}e^{-\frac{d^2}{m}}
B(n,m+d,21)≈πm1e−md2
即
B
(
n
,
n
2
+
d
,
1
2
)
≈
2
π
n
e
−
2
d
2
n
即B(n,\frac{n}{2}+d,\frac{1}{2})≈\frac{\sqrt{2}}{\sqrt{\pi n}}e^{-\frac{2d^2}{n}}
即B(n,2n+d,21)≈πn2e−n2d2
因
此
说
明
了
,
p
=
1
2
时
,
二
项
分
布
的
极
限
分
布
是
正
态
分
布
。
因此说明了,p=\frac{1}{2}时,二项分布的极限分布是正态分布。
因此说明了,p=21时,二项分布的极限分布是正态分布。
数
学
史
上
正
态
分
布
的
发
展
就
源
于
二
项
分
布
的
近
似
计
算
逼
近
。
数学史上正态分布的发展就源于二项分布的近似计算逼近。
数学史上正态分布的发展就源于二项分布的近似计算逼近。
三、De Moivre-Laplace中心极限定理
对
于
p
不
等
于
1
2
的
一
般
情
况
,
则
可
用
稍
微
复
杂
的
类
似
方
法
推
导
,
可
以
得
到
如
下
定
理
对于p不等于\frac{1}{2}的一般情况,则可用稍微复杂的类似方法推导,可以得到如下定理
对于p不等于21的一般情况,则可用稍微复杂的类似方法推导,可以得到如下定理
设
S
n
服
从
二
项
分
布
B
(
n
,
p
)
,
q
=
1
−
p
,
则
对
任
意
实
数
x
有
,
设S_{n}服从二项分布B(n,p),q=1-p,则对任意实数x有,
设Sn服从二项分布B(n,p),q=1−p,则对任意实数x有,
定
理
3.1
:
lim
n
→
∞
P
(
S
n
−
n
p
n
p
q
⩽
x
)
=
1
2
π
∫
−
∞
x
e
−
t
2
2
d
t
=
Φ
(
x
)
定理3.1:\lim_{n \rightarrow \infin}P(\frac{S_{n}-np}{\sqrt{npq}}\leqslant x)=\frac{1}{\sqrt{2 \pi}}\int_{-\infin}^{x} e^{-\frac{t^2}{2}}dt=\Phi(x)
定理3.1:n→∞limP(npqSn−np⩽x)=2π1∫−∞xe−2t2dt=Φ(x)
其
中
Φ
(
x
)
是
标
准
正
态
分
布
的
分
布
函
数
其中\Phi(x)是标准正态分布的分布函数
其中Φ(x)是标准正态分布的分布函数
下
面
再
用
矩
母
函
数
的
方
法
证
明
上
述
定
理
:
下面再用矩母函数的方法证明上述定理:
下面再用矩母函数的方法证明上述定理:
设
Z
n
=
S
n
−
n
p
n
p
q
设Z_{n}=\frac{S_{n}-np}{\sqrt{npq}}
设Zn=npqSn−np
由
于
B
(
1
,
p
)
的
矩
母
函
数
为
p
e
t
+
q
由于B(1,p)的矩母函数为pe^t+q
由于B(1,p)的矩母函数为pet+q
根
据
和
的
分
布
的
矩
母
函
数
性
质
,
B
(
n
,
p
)
的
矩
母
函
数
为
(
p
e
t
+
q
)
n
根据和的分布的矩母函数性质,B(n,p)的矩母函数为(pe^t+q)^n
根据和的分布的矩母函数性质,B(n,p)的矩母函数为(pet+q)n
因
此
,
Z
n
的
矩
母
函
数
为
(
p
e
q
t
n
p
q
+
q
e
−
p
t
n
p
q
)
n
因此,Z_{n}的矩母函数为(pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}})^{n}
因此,Zn的矩母函数为(penpqqt+qenpq−pt)n
由
于
e
x
=
1
+
x
+
x
2
2
!
+
x
3
3
!
+
o
(
x
3
)
由于e^{x}=1+x+\frac{x^2}{2!}+\frac{x^3}{3!}+o(x^3)
由于ex=1+x+2!x2+3!x3+o(x3)
p
e
q
t
n
p
q
+
q
e
−
p
t
n
p
q
pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}}
penpqqt+qenpq−pt
=
p
(
1
+
q
t
n
p
q
+
(
q
t
n
p
q
)
2
2
!
+
(
q
t
n
p
q
)
3
3
!
+
o
(
(
q
t
n
p
q
)
3
)
)
+
q
(
1
+
−
p
t
n
p
q
+
(
−
p
t
n
p
q
)
2
2
!
+
(
−
p
t
n
p
q
)
3
3
!
+
o
(
(
−
p
t
n
p
q
)
3
)
)
=p(1+\frac{qt}{\sqrt{npq}}+\frac{(\frac{qt}{\sqrt{npq}})^2}{2!}+\frac{(\frac{qt}{\sqrt{npq}})^3}{3!}+o((\frac{qt}{\sqrt{npq}})^3))+q(1+\frac{-pt}{\sqrt{npq}}+\frac{(\frac{-pt}{\sqrt{npq}})^2}{2!}+\frac{(\frac{-pt}{\sqrt{npq}})^3}{3!}+o((\frac{-pt}{\sqrt{npq}})^3))
=p(1+npqqt+2!(npqqt)2+3!(npqqt)3+o((npqqt)3))+q(1+npq−pt+2!(npq−pt)2+3!(npq−pt)3+o((npq−pt)3))
=
1
+
t
2
2
n
+
o
(
t
3
n
3
2
)
n
=1+\frac{t^2}{2n}+\frac{o(\frac{t^3}{n^{\frac{3}{2}}})}{n}
=1+2nt2+no(n23t3)
因
此
lim
n
→
∞
M
Z
n
=
lim
n
→
∞
(
p
e
q
t
n
p
q
+
q
e
−
p
t
n
p
q
)
n
=
e
t
2
2
因此\lim_{n \rightarrow \infin}M_{Z_{n}}=\lim_{n \rightarrow \infin}(pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}})^{n}=e^{\frac{t^2}{2}}
因此n→∞limMZn=n→∞lim(penpqqt+qenpq−pt)n=e2t2
根
据
定
理
1.2
,
M
Z
n
的
极
限
与
标
准
正
态
分
布
的
矩
母
函
数
相
同
根据定理1.2,M_{Z_{n}}的极限与标准正态分布的矩母函数相同
根据定理1.2,MZn的极限与标准正态分布的矩母函数相同
因
此
Z
n
依
概
率
收
敛
于
标
准
正
态
分
布
,
定
理
3.1
成
立
因此Z_{n}依概率收敛于标准正态分布,定理3.1成立
因此Zn依概率收敛于标准正态分布,定理3.1成立
四、最小二乘法与正态分布
日常生活中经常会遇到曲线拟合问题,也就是给定若干组观测数据,需要找到一个函数,对这些观测数据进行拟合。
为了比较拟合方法的优劣,我们需要找到一种方法度量拟合的优良性。
有如下几种度量方法:
(
1
)
max
i
=
1
n
∣
f
(
x
i
)
−
y
i
∣
(1)\max_{i=1}^{n} |f(x_{i})-y_{i}|
(1)i=1maxn∣f(xi)−yi∣
(
2
)
∑
i
=
1
n
∣
f
(
x
i
)
−
y
i
∣
(2)\sum_{i=1}^{n} |f(x_{i})-y_{i}|
(2)i=1∑n∣f(xi)−yi∣
(
2
)
∑
i
=
1
n
(
f
(
x
i
)
−
y
i
)
2
(2)\sum_{i=1}^{n} (f(x_{i})-y_{i})^2
(2)i=1∑n(f(xi)−yi)2
第一种度量方法有比较复杂的逻辑比较关系,不能用普通的初等分析方法来分析,而且误差分析结果会完全被误差最大的点主导
第二种度量方法依然含有绝对值函数,绝对值函数是不可导的,需要很多种分类讨论的情况
第三种度量方法是初等函数,可以用求导等方法来分析。在各组数据误差间建立了平衡,能充分地考虑所有数据的信息。
第三种方法就是最小二乘法,在曲线拟合优良性评估中有广泛应用。
最小二乘法可以导出测量值的最优估计值是算术平均值。
L
(
θ
)
=
∑
i
=
1
n
(
θ
−
x
i
)
2
L(\theta)=\sum_{i=1}^{n} (\theta-x_{i})^2
L(θ)=i=1∑n(θ−xi)2
∂
L
(
θ
)
∂
θ
=
∑
i
=
1
n
2
(
θ
−
x
i
)
\frac{\partial L(\theta)}{\partial \theta}=\sum_{i=1}^{n}2(\theta-x_{i})
∂θ∂L(θ)=i=1∑n2(θ−xi)
∂
L
(
θ
)
∂
θ
=
0
时
\frac{\partial L(\theta)}{\partial \theta}=0时
∂θ∂L(θ)=0时
L
(
θ
)
最
小
,
此
时
θ
^
=
∑
i
=
1
n
x
i
n
=
x
ˉ
L(\theta)最小,此时\hat{\theta}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\bar{x}
L(θ)最小,此时θ^=n∑i=1nxi=xˉ
算术平均值非常优美简洁,等权重地考虑了所有独立重复测量值的情况。而高斯在研究误差分布函数时,假定误差分布导出的极大似然估计=算数平均值,然后作出了如下推导
记
误
差
为
e
,
则
误
差
的
密
度
函
数
为
f
(
e
)
记误差为e,则误差的密度函数为f(e)
记误差为e,则误差的密度函数为f(e)
L
(
θ
)
=
Π
i
=
1
n
f
(
e
i
)
=
Π
i
=
1
n
f
(
x
i
−
θ
)
L(\theta)=\Pi_{i=1}^{n}f(e_i)=\Pi_{i=1}^{n}f(x_i-\theta)
L(θ)=Πi=1nf(ei)=Πi=1nf(xi−θ)
求
极
大
似
然
估
计
,
令
∂
l
n
(
L
(
θ
)
)
∂
θ
=
0
,
则
有
求极大似然估计,令\frac{\partial ln(L(\theta))}{\partial \theta}=0,则有
求极大似然估计,令∂θ∂ln(L(θ))=0,则有
∑
i
=
1
n
f
′
(
x
i
−
θ
)
f
(
x
i
−
θ
)
=
0
\sum_{i=1}^{n}\frac{f'(x_i-\theta)}{f(x_i-\theta)}=0
i=1∑nf(xi−θ)f′(xi−θ)=0
令
g
(
x
i
−
θ
)
=
f
′
(
x
i
−
θ
)
f
(
x
i
−
θ
)
令g(x_i-\theta)=\frac{f'(x_i-\theta)}{f(x_i-\theta)}
令g(xi−θ)=f(xi−θ)f′(xi−θ)
则
∑
i
=
1
n
g
(
x
i
−
θ
)
=
0
则\sum_{i=1}^{n}g(x_i-\theta)=0
则i=1∑ng(xi−θ)=0
将
θ
^
=
x
ˉ
代
入
上
式
,
则
有
将\hat{\theta}=\bar{x}代入上式,则有
将θ^=xˉ代入上式,则有
式
4.1
:
∑
i
=
1
n
g
(
x
i
−
x
ˉ
)
=
0
式4.1:\sum_{i=1}^{n}g(x_i-\bar{x})=0
式4.1:i=1∑ng(xi−xˉ)=0
在
式
4.1
中
取
n
=
2
在式4.1中取n=2
在式4.1中取n=2
g
(
x
1
−
x
ˉ
)
+
g
(
x
2
−
x
ˉ
)
=
0
g(x_1-\bar{x})+g(x_2-\bar{x})=0
g(x1−xˉ)+g(x2−xˉ)=0
由
于
x
1
−
x
ˉ
=
−
(
x
2
−
x
ˉ
)
由于x_1-\bar{x}=-(x_2-\bar{x})
由于x1−xˉ=−(x2−xˉ)
因
此
g
(
x
)
+
g
(
−
x
)
=
0
,
g
(
x
)
为
奇
函
数
因此g(x)+g(-x)=0,g(x)为奇函数
因此g(x)+g(−x)=0,g(x)为奇函数
在
令
式
4.1
中
n
=
m
+
1
,
令
x
1
=
x
2
=
.
.
.
=
x
m
=
−
x
,
x
m
+
1
=
m
x
,
则
在令式4.1中n=m+1,令x_1=x_2=...=x_m=-x,x_{m+1}=mx,则
在令式4.1中n=m+1,令x1=x2=...=xm=−x,xm+1=mx,则
m
g
(
−
x
)
+
g
(
m
x
)
=
0
mg(-x)+g(mx)=0
mg(−x)+g(mx)=0
因
此
,
有
式
4.2
:
g
(
m
x
)
=
m
g
(
x
)
因此,有式4.2:g(mx)=mg(x)
因此,有式4.2:g(mx)=mg(x)
唯
一
满
足
式
4.2
的
连
续
函
数
是
g
(
x
)
=
c
x
唯一满足式4.2的连续函数是g(x)=cx
唯一满足式4.2的连续函数是g(x)=cx
因
此
f
′
(
x
)
f
(
x
)
=
c
x
因此\frac{f'(x)}{f(x)}=cx
因此f(x)f′(x)=cx
(
l
n
f
(
x
)
)
′
=
c
x
(ln f(x))'=cx
(lnf(x))′=cx
两
边
进
行
积
分
,
得
两边进行积分,得
两边进行积分,得
l
n
f
(
x
)
=
c
x
2
+
t
ln f(x)=cx^2+t
lnf(x)=cx2+t
f
(
x
)
=
t
e
c
x
2
f(x)=te^{cx^2}
f(x)=tecx2
由
于
f
(
x
)
满
足
规
范
性
,
因
此
f
(
x
)
规
范
化
后
就
是
正
态
分
布
N
(
0
,
σ
2
)
的
密
度
函
数
由于f(x)满足规范性,因此f(x)规范化后就是正态分布N(0,\sigma^2)的密度函数
由于f(x)满足规范性,因此f(x)规范化后就是正态分布N(0,σ2)的密度函数
五、基于独立性和旋转对称性的推导
天文学家John Hershcel和物理学家麦克斯韦(Maxwell)考虑二维的误差分布时,考虑了两个准则:
(
5.1
)
:
两
个
坐
标
轴
x
轴
和
y
轴
的
误
差
是
相
互
独
立
的
(5.1):两个坐标轴x轴和y轴的误差是相互独立的
(5.1):两个坐标轴x轴和y轴的误差是相互独立的
(
5.2
)
:
误
差
的
分
布
在
空
间
上
具
有
旋
转
对
称
性
,
即
误
差
的
分
布
与
空
间
中
的
方
位
没
有
关
系
(5.2):误差的分布在空间上具有旋转对称性,即误差的分布与空间中的方位没有关系
(5.2):误差的分布在空间上具有旋转对称性,即误差的分布与空间中的方位没有关系
由
(
5.1
)
得
,
f
(
x
,
y
)
=
f
(
x
)
f
(
y
)
由(5.1)得,f(x,y)=f(x)f(y)
由(5.1)得,f(x,y)=f(x)f(y)
在
极
坐
标
表
示
下
,
f
(
x
,
y
)
=
f
(
r
c
o
s
θ
,
r
s
i
n
θ
)
=
g
(
r
,
θ
)
在极坐标表示下,f(x,y)=f(rcos\theta,rsin\theta)=g(r,\theta)
在极坐标表示下,f(x,y)=f(rcosθ,rsinθ)=g(r,θ)
由
(
5.2
)
得
,
g
(
r
,
θ
)
=
g
(
r
)
由(5.2)得,g(r,\theta)=g(r)
由(5.2)得,g(r,θ)=g(r)
因
此
f
(
x
,
y
)
=
f
(
x
)
f
(
y
)
=
g
(
r
)
=
g
(
x
2
+
y
2
)
因此f(x,y)=f(x)f(y)=g(r)=g(\sqrt{x^2+y^2})
因此f(x,y)=f(x)f(y)=g(r)=g(x2+y2)
令
y
=
0
,
则
有
f
(
x
)
f
(
0
)
=
g
(
x
)
令y=0,则有f(x)f(0)=g(x)
令y=0,则有f(x)f(0)=g(x)
因
此
f
(
x
)
f
(
y
)
=
f
(
x
2
+
y
2
)
f
(
0
)
因此f(x)f(y)=f(\sqrt{x^2+y^2})f(0)
因此f(x)f(y)=f(x2+y2)f(0)
因
此
f
(
x
)
f
(
0
)
f
(
y
)
f
(
0
)
=
f
(
x
2
+
y
2
)
f
(
0
)
因此\frac{f(x)}{f(0)}\frac{f(y)}{f(0)}=\frac{f(\sqrt{x^2+y^2})}{f(0)}
因此f(0)f(x)f(0)f(y)=f(0)f(x2+y2)
因
此
l
n
(
f
(
x
)
f
(
0
)
)
+
l
n
(
f
(
y
)
f
(
0
)
)
=
l
n
(
f
(
x
2
+
y
2
)
f
(
0
)
)
因此ln(\frac{f(x)}{f(0)})+ln(\frac{f(y)}{f(0)})=ln(\frac{f(\sqrt{x^2+y^2})}{f(0)})
因此ln(f(0)f(x))+ln(f(0)f(y))=ln(f(0)f(x2+y2))
令
h
(
x
)
=
l
n
(
f
(
x
)
f
(
0
)
)
令h(x)=ln(\frac{f(x)}{f(0)})
令h(x)=ln(f(0)f(x))
所
以
h
(
x
)
+
h
(
y
)
=
h
(
x
2
+
y
2
)
所以h(x)+h(y)=h(\sqrt{x^2+y^2})
所以h(x)+h(y)=h(x2+y2)
这
个
方
程
满
足
两
个
维
度
距
离
合
成
的
公
式
这个方程满足两个维度距离合成的公式
这个方程满足两个维度距离合成的公式
可
以
得
到
一
个
可
行
解
h
(
x
)
=
a
x
2
可以得到一个可行解h(x)=ax^2
可以得到一个可行解h(x)=ax2
因
此
f
(
x
)
f
(
0
)
=
e
a
x
2
因此\frac{f(x)}{f(0)}=e^{ax^2}
因此f(0)f(x)=eax2
由
于
f
(
0
)
∫
−
∞
+
∞
e
a
x
2
d
x
=
1
由于f(0)\int_{-\infin}^{+\infin}e^{ax^2}dx=1
由于f(0)∫−∞+∞eax2dx=1
解
得
f
(
x
)
=
a
π
e
−
a
x
2
解得f(x)=\sqrt{\frac{a}{\pi}}e^{-ax^2}
解得f(x)=πae−ax2
而
f
(
x
)
就
是
正
态
分
布
N
(
0
,
1
2
a
)
的
概
率
密
度
函
数
,
f
(
x
,
y
)
则
是
二
维
标
准
正
态
分
布
函
数
而f(x)就是正态分布N(0,\frac{1}{\sqrt{2a}})的概率密度函数,f(x,y)则是二维标准正态分布函数
而f(x)就是正态分布N(0,2a1)的概率密度函数,f(x,y)则是二维标准正态分布函数
六、Lindeberg-Lévy中心极限定理
定
理
6.1
(
L
i
n
d
e
b
e
r
g
−
L
e
ˊ
v
y
中
心
极
限
定
理
)
:
定理6.1(Lindeberg-Lévy中心极限定理):
定理6.1(Lindeberg−Leˊvy中心极限定理):
记
X
1
,
X
2
.
.
.
X
n
是
相
互
独
立
同
分
布
的
随
机
变
量
序
列
,
且
存
在
均
值
μ
和
方
差
σ
2
记X_1,X_2...X_n是相互独立同分布的随机变量序列,且存在均值\mu和方差\sigma^2
记X1,X2...Xn是相互独立同分布的随机变量序列,且存在均值μ和方差σ2
S
n
=
∑
1
n
X
i
,
则
对
于
任
意
的
实
数
x
有
,
S_n=\sum_{1}^{n}X_i,则对于任意的实数x有,
Sn=1∑nXi,则对于任意的实数x有,
lim
n
→
∞
P
(
S
n
−
n
μ
n
σ
⩽
x
)
=
1
2
π
∫
−
∞
x
e
−
t
2
2
d
t
=
Φ
(
x
)
\lim_{n \rightarrow \infin}P(\frac{S_{n}-n\mu}{\sqrt{n}\sigma}\leqslant x)=\frac{1}{\sqrt{2 \pi}}\int_{-\infin}^{x} e^{-\frac{t^2}{2}}dt=\Phi(x)
n→∞limP(nσSn−nμ⩽x)=2π1∫−∞xe−2t2dt=Φ(x)
可
以
用
特
征
函
数
证
明
这
个
定
理
:
可以用特征函数证明这个定理:
可以用特征函数证明这个定理:
对
于
k
=
1
,
2..
n
,
令
Y
k
=
X
k
−
μ
σ
对于k=1,2..n,令Y_k=\frac{X_k-\mu}{\sigma}
对于k=1,2..n,令Yk=σXk−μ
则
Y
k
独
立
同
分
布
,
记
为
f
(
t
)
,
E
Y
=
0
,
D
Y
=
1
则Y_k独立同分布,记为f(t),EY=0,DY=1
则Yk独立同分布,记为f(t),EY=0,DY=1
则
f
′
(
0
)
=
i
E
Y
=
0
,
f
′
′
(
0
)
=
i
2
E
Y
2
=
−
(
D
X
+
(
E
X
)
2
)
=
−
1
则f'(0)=iEY=0,f''(0)=i^2EY^2=-(DX+(EX)^2)=-1
则f′(0)=iEY=0,f′′(0)=i2EY2=−(DX+(EX)2)=−1
由
泰
勒
公
式
得
f
(
t
)
=
1
−
t
2
2
+
o
(
t
2
)
由泰勒公式得f(t)=1-\frac{t^2}{2}+o(t^2)
由泰勒公式得f(t)=1−2t2+o(t2)
Z
n
=
S
n
−
n
μ
n
σ
=
∑
i
=
1
n
Y
i
n
Z_n=\frac{S_{n}-n\mu}{\sqrt{n}\sigma}=\frac{\sum_{i=1}^{n}Y_i}{\sqrt{n}}
Zn=nσSn−nμ=n∑i=1nYi
f
Z
n
(
t
)
=
(
f
(
t
n
)
)
n
f_{Z_n}(t)=(f(\frac{t}{\sqrt{n}}))^n
fZn(t)=(f(nt))n
=
(
1
−
t
2
2
n
+
o
(
t
2
)
n
)
n
=(1-\frac{t^2}{2n}+\frac{o(t^2)}{n})^n
=(1−2nt2+no(t2))n
因
此
得
到
lim
n
→
∞
f
Z
n
(
t
)
=
e
−
t
2
2
,
为
正
态
分
布
的
特
征
函
数
因此得到\lim_{n \rightarrow \infin}f_{Z_n}(t)=e^{-\frac{t^2}{2}},为正态分布的特征函数
因此得到n→∞limfZn(t)=e−2t2,为正态分布的特征函数
这个定理揭示出了正态分布超乎寻常的稳定性,任意同分布随机变量求和之后极限分布就是正态分布。
七、正态分布的相关定理和性质
定
理
7.1
:
若
X
∼
N
(
μ
,
σ
2
)
,
且
a
和
b
为
实
数
,
则
a
X
+
b
∼
N
(
a
μ
+
b
,
a
2
σ
2
)
定理7.1:若X \sim N(\mu,\sigma^2),且a和b为实数,则aX+b \sim N(a\mu+b,a^2\sigma^2)
定理7.1:若X∼N(μ,σ2),且a和b为实数,则aX+b∼N(aμ+b,a2σ2)
证
明
:
M
X
(
t
)
=
e
μ
t
+
t
2
σ
2
2
证明:M_X(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}
证明:MX(t)=eμt+2t2σ2
则
M
a
X
+
b
(
t
)
=
E
(
e
t
(
a
X
+
b
)
)
=
e
b
t
E
(
e
(
t
a
)
X
)
)
则M_{aX+b}(t)=E(e^{t(aX+b)})=e^{bt}E(e^{(ta)X}))
则MaX+b(t)=E(et(aX+b))=ebtE(e(ta)X))
=
e
b
t
e
a
μ
t
+
a
2
t
2
σ
2
2
=e^{bt}e^{a\mu t+\frac{a^2t^2\sigma^2}{2}}
=ebteaμt+2a2t2σ2
=
e
(
a
μ
+
b
)
t
+
t
2
(
a
σ
)
2
2
,
为
N
(
a
μ
+
b
,
a
2
σ
2
)
的
矩
母
函
数
=e^{(a\mu+b) t+\frac{t^2(a\sigma)^2}{2}},为N(a\mu+b,a^2\sigma^2)的矩母函数
=e(aμ+b)t+2t2(aσ)2,为N(aμ+b,a2σ2)的矩母函数
可
见
正
态
分
布
在
线
性
变
换
后
仍
为
正
态
分
布
可见正态分布在线性变换后仍为正态分布
可见正态分布在线性变换后仍为正态分布
因
此
所
有
正
态
分
布
和
退
化
分
布
(
0
)
构
成
一
个
向
量
空
间
。
因此所有正态分布和退化分布(0)构成一个向量空间。
因此所有正态分布和退化分布(0)构成一个向量空间。
定
理
7.2
(
正
态
分
布
的
加
法
定
理
)
:
若
X
与
Y
相
互
独
立
,
且
X
∼
N
(
μ
1
,
σ
1
2
)
,
Y
∼
N
(
μ
2
,
σ
2
2
)
,
则
有
定理7.2(正态分布的加法定理):若X与Y相互独立,且X \sim N(\mu_{1},\sigma_{1}^{2}),Y \sim N(\mu_{2},\sigma_{2}^{2}),则有
定理7.2(正态分布的加法定理):若X与Y相互独立,且X∼N(μ1,σ12),Y∼N(μ2,σ22),则有
X
+
Y
∼
N
(
μ
1
+
μ
2
,
σ
1
2
+
σ
2
2
)
X+Y \sim N(\mu_{1}+\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})
X+Y∼N(μ1+μ2,σ12+σ22)
证
明
:
M
X
+
Y
(
t
)
=
M
X
(
t
)
M
Y
(
t
)
=
e
μ
1
t
+
t
2
σ
1
2
2
e
μ
2
t
+
t
2
σ
2
2
2
证明:M_{X+Y}(t)=M_X(t)M_Y(t)=e^{\mu_1 t+\frac{t^2\sigma_1^2}{2}}e^{\mu_2 t+\frac{t^2\sigma_2^2}{2}}
证明:MX+Y(t)=MX(t)MY(t)=eμ1t+2t2σ12eμ2t+2t2σ22
=
e
(
μ
1
+
μ
2
)
t
+
t
2
(
σ
1
2
+
σ
2
2
)
2
,
为
正
态
分
布
N
(
μ
1
+
μ
2
,
σ
1
2
+
σ
2
2
)
的
矩
母
函
数
=e^{(\mu_1+\mu_2)t+\frac{t^2(\sigma_1^2+\sigma_2^2)}{2}},为正态分布N(\mu_{1}+\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})的矩母函数
=e(μ1+μ2)t+2t2(σ12+σ22),为正态分布N(μ1+μ2,σ12+σ22)的矩母函数
定
理
7.3
:
若
X
与
Y
相
互
独
立
,
且
X
∼
N
(
μ
1
,
σ
1
2
)
,
Y
∼
N
(
μ
2
,
σ
2
2
)
,
则
有
定理7.3:若X与Y相互独立,且X \sim N(\mu_{1},\sigma_{1}^{2}),Y \sim N(\mu_{2},\sigma_{2}^{2}),则有
定理7.3:若X与Y相互独立,且X∼N(μ1,σ12),Y∼N(μ2,σ22),则有
X
−
Y
∼
N
(
μ
1
−
μ
2
,
σ
1
2
+
σ
2
2
)
X-Y \sim N(\mu_{1}-\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})
X−Y∼N(μ1−μ2,σ12+σ22)
证
明
:
M
X
−
Y
(
t
)
=
M
X
+
(
−
Y
)
(
t
)
=
M
X
(
t
)
M
−
Y
(
t
)
=
e
μ
1
t
+
t
2
σ
1
2
2
e
−
μ
2
t
+
t
2
σ
2
2
2
证明:M_{X-Y}(t)=M_{X+(-Y)}(t)=M_X(t)M_{-Y}(t)=e^{\mu_1 t+\frac{t^2\sigma_1^2}{2}}e^{-\mu_2 t+\frac{t^2\sigma_2^2}{2}}
证明:MX−Y(t)=MX+(−Y)(t)=MX(t)M−Y(t)=eμ1t+2t2σ12e−μ2t+2t2σ22
=
e
(
μ
1
−
μ
2
)
t
+
t
2
(
σ
1
2
+
σ
2
2
)
2
,
为
正
态
分
布
N
(
μ
1
−
μ
2
,
σ
1
2
+
σ
2
2
)
的
矩
母
函
数
=e^{(\mu_1-\mu_2)t+\frac{t^2(\sigma_1^2+\sigma_2^2)}{2}},为正态分布N(\mu_{1}-\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})的矩母函数
=e(μ1−μ2)t+2t2(σ12+σ22),为正态分布N(μ1−μ2,σ12+σ22)的矩母函数