本文的最重要的一个定理,中心极限定理Central limit theorem(CLT):
任何函数多次与自身进行卷积运算之后,都会逼近某高斯分布,即
lim n → ∞ f ( x ) ∗ . . . ∗ f ( x ) = lim n → ∞ f ∗ n ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 \huge\lim_{n\to \infty} f(x)*...*f(x) = \lim_{n\to \infty}f^{*n}(x) =\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} n→∞limf(x)∗...∗f(x)=n→∞limf∗n(x)=2πσ1e−2σ2(x−μ)2
为了方便起见,我们将标准正态分布的情况,更一般的证明可以通过本文证明的标准正态分布通过缩放、位移得到。
我们回忆一下概率论几个定义或定理:
设
p
(
x
)
p(x)
p(x)为概率密度分布,
P
(
a
≤
x
≤
b
)
P(a\leq x\leq b)
P(a≤x≤b)为
X
X
X在
[
a
,
b
]
[a,b]
[a,b]内的概率,则
p
(
x
)
≥
0
p(x)\geq 0
p(x)≥0
P
(
a
≤
x
≤
b
)
=
∫
a
b
p
(
x
)
d
x
P(a\leq x\leq b)=\int_{a}^{b}p(x)dx
P(a≤x≤b)=∫abp(x)dx
F
(
x
)
=
P
(
X
≤
x
)
=
∫
−
∞
x
p
(
x
)
d
x
F(x)=P(X\leq x)=\int_{-\infty}^{x}p(x)dx
F(x)=P(X≤x)=∫−∞xp(x)dx
P
(
−
∞
≤
x
≤
+
∞
)
=
1
P(-\infty\leq x \leq +\infty) = 1
P(−∞≤x≤+∞)=1,
平
均
值
x
‾
=
∫
−
∞
∞
x
p
(
x
)
d
x
平均值\overline{x} = \int_{-\infty}^{\infty}xp(x)dx
平均值x=∫−∞∞xp(x)dx,
标
准
差
s
=
∫
−
∞
∞
x
2
p
(
x
)
d
x
标准差s= \int_{-\infty}^{\infty}x^2p(x)dx
标准差s=∫−∞∞x2p(x)dx
若 X X X的概率密度为 f ( X ) f(X) f(X),则 a X aX aX的概率密度为KaTeX parse error: \tag works only in display equations
简单证明一下最后一条:
设
X
X
X的概率密度为
f
(
X
)
f(X)
f(X),则对于
Y
=
k
X
,
k
>
0
Y=kX,k>0
Y=kX,k>0
F ( y ) = P ( Y ≤ y ) = P ( k X ≤ y ) = P ( X ≤ y k ) = ∫ − ∞ y k p ( x ) d x F(y)=P(Y\leq y)=P(kX\leq y)=P(X\leq \frac{y}{k})=\int_{-\infty}^{ \frac{y}{k}}p(x)dx F(y)=P(Y≤y)=P(kX≤y)=P(X≤ky)=∫−∞kyp(x)dx
对其求导,利用定积分求导公式可得:
f ( y ) = d F ( y ) d y = p ( y k ) d ( y k ) d y − lim c → − ∞ p ( c ) d c d y = 1 k p ( y k ) \begin{aligned} f(y)=\frac{dF(y)}{dy}&=p\left(\frac{y}{k} \right )\frac{d\left(\frac{y}{k}\right)}{dy} -\lim_{c\to -\infty} p(c)\frac{dc}{dy}\\ &=\frac{1}{k}p\left(\frac{y}{k} \right ) \end{aligned} f(y)=dydF(y)=p(ky)dyd(ky)−c→−∞limp(c)dydc=k1p(ky)
将变量 y y y用变量 x x x替换即得证
设 X 1 X_1 X1, X 2 X_2 X2为独立的随机变量,那么
P ( X 1 + X 2 ≤ t ) = ∬ X 1 + X 2 ≤ t p 1 ( X 1 ) p 2 ( X 2 ) d X 1 d X 2 P(X_1+X_2\leq t) = \iint_{X_1+X_2\leq t} p_1(X_1)p_2(X_2)dX_1dX_2 P(X1+X2≤t)=∬X1+X2≤tp1(X1)p2(X2)dX1dX2
令 u = X 1 , v = X 1 + X 2 u=X_1, v=X_1+X_2 u=X1,v=X1+X2,则 X 1 = u , X 2 = v − u X_1=u, X_2=v-u X1=u,X2=v−u,运用雅可比变换,有:
P ( X 1 + X 2 ≤ t ) = ∬ v ≤ t p 1 ( u ) p 2 ( v − u ) ∣ ∂ X 1 ∂ u ∂ X 1 ∂ v ∂ X 2 ∂ u ∂ X 2 ∂ v ∣ d u d v = ∫ − ∞ t ∫ − ∞ + ∞ p 1 ( u ) p 2 ( v − u ) d u d v = ∫ − ∞ t ( p 1 ∗ p 2 ) ( v ) d v \begin{aligned} P(X_1+X_2\leq t) &=\iint_{v\leq t} p_1(u)p_2(v-u)\begin{vmatrix} \frac{\partial X_1}{\partial u} & \frac{\partial X_1}{\partial v} \\ \frac{\partial X_2}{\partial u} & \frac{\partial X_2}{\partial v} \\ \end{vmatrix}dudv\\ &=\int_{-\infty}^{t}\int_{-\infty}^{+\infty}p_1(u)p_2(v-u)dudv\\ &=\int_{-\infty}^{t}(p_1*p_2)(v)dv \end{aligned} P(X1+X2≤t)=∬v≤tp1(u)p2(v−u)∣∣∣∣∂u∂X1∂u∂X2∂v∂X1∂v∂X2∣∣∣∣dudv=∫−∞t∫−∞+∞p1(u)p2(v−u)dudv=∫−∞t(p1∗p2)(v)dv
因此,
X
1
+
X
2
X_1+X_2
X1+X2的概率密度,就是
p
1
p_1
p1与
p
2
p_2
p2的卷积
不难证明,
X
1
+
⋯
+
X
n
X_1+\dots+X_n
X1+⋯+Xn的概率密度,可以由
p
1
∗
⋯
∗
p
n
p_1*\dots*p_n
p1∗⋯∗pn来表示,即
p ( X 1 + ⋯ + X n ) = p 1 ∗ ⋯ ∗ p n (2) \huge p(X_1+\dots+X_n)=p_1*\dots*p_n\tag2 p(X1+⋯+Xn)=p1∗⋯∗pn(2)
我们设
X
1
+
⋯
+
X
n
X_1+\dots+X_n
X1+⋯+Xn 有相同的概率分布
p
(
x
)
p(x)
p(x)(即独立同分布IID)。方便起见,设他们分别的平均值为
0
0
0,标准差为
1
1
1,即:
x
‾
=
∫
−
∞
∞
x
p
(
x
)
d
x
=
0
\overline{x} = \int_{-\infty}^{\infty}xp(x)dx=0
x=∫−∞∞xp(x)dx=0
s
=
∫
−
∞
∞
x
2
p
(
x
)
d
x
=
1
s= \int_{-\infty}^{\infty}x^2p(x)dx=1
s=∫−∞∞x2p(x)dx=1
设 S = X 1 + ⋯ + X n \mathscr{S}=X_1+\dots+X_n S=X1+⋯+Xn,则 S \mathscr{S} S 的平均值为 0 0 0,方差为 1 1 1,标准差为 n \sqrt n n
接下来我们证明中心极限定理(CLT):
设 p n ( x ) p_n(x) pn(x) 为 S n \frac{\mathscr{S}}{\sqrt{n}} nS 的概率密度(这样标准差就为 1 1 1),则
lim n → ∞ p n ( x ) = 1 2 π e − x 2 2 \lim_{n\to \infty} p_n(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} n→∞limpn(x)=2π1e−2x2
证明如下:
由 ( 2 ) (2) (2) 式可知, p ( S ) = p 1 ∗ ⋯ ∗ p n p(\mathscr{S})=p_1*\dots*p_n p(S)=p1∗⋯∗pn,而 p n ( x ) p_n(x) pn(x) 相当于 p ( S ) p(\mathscr{S}) p(S) 的缩放,根据 ( 1 ) (1) (1) 知,
p n ( x ) = n p ( n S ) = n p ∗ n ( n x ) p_n(x) = \sqrt{n}p\left(\sqrt{n} \mathscr{S} \right) = \sqrt{n}p^{*n}(\sqrt{n} x) pn(x)=np(nS)=np∗n(nx)
对进行傅里叶变换,并根据傅里叶变换的拉伸性,有:
F ( p n ( x ) ) = n F ( p ∗ n ( n x ) ) = n ( 1 n ( F ( p ∗ n ) ) ( s n ) ) = ( F ( p ∗ n ) ) ( s n ) = ( F p ) n ( s n ) = ( F p ( s n ) ) n (3) \begin{aligned} \mathscr{F}(p_n(x)) &= \sqrt{n}\mathscr{F}(p^{*n}(\sqrt{n} x))\\ &=\sqrt{n}(\frac{1}{\sqrt{n}}(\mathscr{F}(p^{*n}))(\frac{s}{\sqrt{n}}))\\ &=(\mathscr{F}(p^{*n}))(\frac{s}{\sqrt{n}})\\ &=(\mathscr{F}p)^{n}(\frac{s}{\sqrt{n}})\\ &=(\mathscr{F}p(\frac{s}{\sqrt{n}}))^{n}\tag 3 \end{aligned} F(pn(x))=nF(p∗n(nx))=n(n1(F(p∗n))(ns))=(F(p∗n))(ns)=(Fp)n(ns)=(Fp(ns))n(3)
我们将 F p ( s n ) \mathscr{F}p(\frac{s}{\sqrt{n}}) Fp(ns) 展开,有:
F p ( s n ) = ∫ − ∞ + ∞ e − 2 π i ( s n ) x p ( x ) d x \mathscr{F}p(\frac{s}{\sqrt{n}})=\int_{-\infty}^{+\infty}e^{-2\pi i (\frac{s}{\sqrt n})x} p(x)dx Fp(ns)=∫−∞+∞e−2πi(ns)xp(x)dx
对 e − 2 π i ( s n ) x e^{-2\pi i (\frac{s}{\sqrt n})x} e−2πi(ns)x 用泰勒展开,有:
F p ( s n ) = ∫ − ∞ + ∞ [ 1 − 2 π i s x n − 1 2 ( 2 π s x π ) 2 + … ] p ( x ) d x = ∫ − ∞ + ∞ p ( x ) d x − 2 π i s n ∫ − ∞ + ∞ x p ( x ) d x − = 1 − 0 − 2 π 2 s 2 n + o ( 1 n 3 ) \begin{aligned} \mathscr{F}p(\frac{s}{\sqrt{n}})&=\int_{-\infty}^{+\infty}\left [ 1-\frac{2\pi i sx}{\sqrt{n}} - \frac{1}{2}\left(\frac{2\pi s x}{\sqrt \pi} \right)^2 + \dots \right] p(x)dx\\ &=\int_{-\infty}^{+\infty}p(x)dx - \frac{2\pi i s}{\sqrt{n}}\int_{-\infty}^{+\infty}xp(x)dx-\\ &=1-0-\frac{2\pi ^2 s^2}{n}+o\left(\frac{1}{\sqrt n}^3 \right) \end{aligned} Fp(ns)=∫−∞+∞[1−n2πisx−21(π2πsx)2+…]p(x)dx=∫−∞+∞p(x)dx−n2πis∫−∞+∞xp(x)dx−=1−0−n2π2s2+o(n13)
显然,当 n → ∞ n\to \infty n→∞ 时, F p ( s n ) ≈ 1 − 2 π 2 s 2 n \mathscr{F}p(\frac{s}{\sqrt{n}})\approx 1-\frac{2\pi ^2 s^2}{n} Fp(ns)≈1−n2π2s2,将其带入 ( 3 ) (3) (3) 式,可得
( F p ( s n ) ) n ≈ ( 1 − 2 π 2 s 2 n ) n = ( ( 1 + − 2 π 2 s 2 n ) n − 2 π 2 s 2 ) − 2 π 2 s 2 = e − 2 π 2 s 2 (\mathscr{F}p(\frac{s}{\sqrt{n}}))^{n} \approx \left(1-\frac{2\pi ^2 s^2}{n} \right)^n=\left(\left(1+\frac{-2\pi ^2 s^2}{n} \right)^{\frac{n}{-2\pi ^2 s^2}} \right)^{-2\pi ^2 s^2}=e^{-2\pi ^2 s^2} (Fp(ns))n≈(1−n2π2s2)n=((1+n−2π2s2)−2π2s2n)−2π2s2=e−2π2s2
对其进行傅里叶逆变换,运用傅里叶变换的拉伸性对高斯函数进行拉伸可得:
lim n → ∞ p n ( x ) = 1 2 π e − x 2 2 \lim_{n\to \infty} p_n(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} n→∞limpn(x)=2π1e−2x2
得证。