高斯过程的初步认识
文章目录
1. 概述
随机过程研究的角度主要包括:线性的角度、马尔科夫角度、鞅角度。我们之前所介绍的知识都是从线性的角度来说的,讲述的都是随机过程中的一些共性的东西,还没有介绍具体的随机过程。接下来,我们要介绍高斯过程和泊松过程两个随机过程。这是人们研究最透彻,也是最常见的两种随机过程。
我们首先会通过物理学的分子运动、信息论中的熵和概率论中的中心极限定理这三问题入手,通过分析这三个问题,我们会发现高斯过程是一种随处可见,应用非常广泛的随机过程。
2. 扩散方程与高斯过程
第一个角度,我们会从分子运动和随机扩散问题进行展开,这是个物理问题。
Molecular Dynamic Random Diffusion \text{Molecular Dynamic} \\ \text{Random Diffusion} Molecular DynamicRandom Diffusion
我们提出的问题是,假设我们往水里滴一滴墨水,经过时间τ之后,这滴墨水的分布情况变成了什么样子。事实上,这是问题是具有随机性的,并且会服从某种分布。
我们假设ρ(y)表示,经常时间τ之后,分子距离原点为y的地方出现的概率
ρ ( y ) Probality Density \rho(y) \text{ Probality Density} ρ(y) Probality Density
我们规定这个概率分布具有这样的性质:关于原点是对称的、积分是1、一阶矩为0,二阶矩是个常数。
ρ ( y ) ≥ 0 ρ ( y ) = ρ ( − y ) ∫ − ∞ + ∞ ρ ( y ) = 1 ∫ − ∞ + ∞ y ρ ( y ) = 0 ∫ − ∞ + ∞ y 2 ρ ( y ) = D \rho(y) \geq 0 \\ \rho(y) = \rho(-y) \\ \int_{-\infty}^{+\infty} \rho(y) = 1 \\ \int_{-\infty}^{+\infty} y\rho(y) = 0 \\ \int_{-\infty}^{+\infty} y^2\rho(y) = D \\ ρ(y)≥0ρ(y)=ρ(−y)∫−∞+∞ρ(y)=1∫−∞+∞yρ(y)=0∫−∞+∞y2ρ(y)=D
分子运动建模是1905年由爱因斯坦做出的。当时概率理论还没有被建立。人们描述分子运动一般都会基于牛顿方程,使用动力学模型进行描述,但是由于需要考虑的因素过多,没有办法准确描述。爱因斯坦首次使用概率的方法对分子运动进行建模。并且,基于这个模型,人们发现了分子。
然后我们定义一个函数f(x,t),表示时间为t的时候,距离原点x位置的分子数量。由于在初始化时刻初始位置我们只滴入了一滴墨水,初始状态的分子总量是确定的。我们描述物理问题的时候一般都是需要找到守恒量的,这里分子的总量就是个守恒量
f ( x , t ) → f ( 0 , 0 ) = C f(x,t) \rightarrow f(0,0) = C f(x,t)→f(0,0)=C
接下来,我们要通过分子运动规律进行建模,从而得到有关函数f的微分方程。
我们要计算经过时间τ之后x处的分子数量
f ( x , t + τ ) = ∫ − ∞ + ∞ f ( x − y , t ) ρ ( y ) d y f(x,t+ \tau) = \int_{-\infty}^{+\infty} f(x-y,t) \rho(y) dy f(x,t+τ)=∫−∞+∞f(x−y,t)ρ(y)dy
t +τ时刻的分子是由t时刻各处的分子的扩散行为决定的,在x处的分子可能会扩散向其他地方,不在x处的可能会扩散过来。这个方程其实已经包括了扩散来和扩散走的情况了。y为0的时候就是x处分子的扩散行为。
左边是时间的维度,右边是空间的维度。我们通过对时间维度和空间维度进行泰勒展开,即可得到微分方程。不过,由于时间的差异非常小,用泰勒公式是可以的,因为泰勒公式是局部展开的性质。而对空间维度进行泰勒展开可能在感觉上会有问题,但是最终得到的结果确实正确的
f ( x , t + τ ) = f ( x , t ) + ∂ f ∂ t τ + O ( τ ) f(x,t+\tau) = f(x,t) + \frac{\partial f}{\partial t} \tau + O(\tau) f(x,t+τ)=f(x,t)+∂t∂fτ+O(τ)
然后在空间维度进行展开,并且展开到二阶
f ( x − y , t ) = f ( x , t ) − ∂ f ∂ x y + 1 2 ∂ 2 f ∂ x 2 y 2 + O ( y 2 ) f(x-y,t) = f(x,t)- \frac{\partial f}{\partial x} y + \frac{1}{2}\frac{\partial^2 f}{\partial x^2} y^2 + O(y^2) f(x−y,t)=f(x,t)−∂x∂fy+21∂x2∂2fy2+O(y2)
时间展开等于空间展开的积分,其中高阶无穷小可以忽略。并且代入概率密度函数的性质,我们可以得到一个差分方程
f ( x , t ) + ∂ f ∂ t τ + O ( τ ) = ∫ − ∞ + ∞ ( f ( x , t ) − ∂ f ∂ x y + 1 2 ∂ 2 f ∂ x 2 y 2 + O ( y 2 ) ) ρ ( y ) d y f ( x , t ) + ∂ f ∂ t τ = f ( x , t ) ∫ − ∞ + ∞ ρ ( y ) d y − ∂ f ∂ x ∫ − ∞ + ∞ y ρ ( y ) d y + 1 2 ∂ 2 f ∂ x 2 ∫ − ∞ + ∞ y 2 ρ ( y ) d y f ( x , t ) + ∂ f ∂ t τ = f ( x , t ) + 0 + D 2 ∂ 2 f ∂ x 2 ⇒ ∂ f ∂ t τ = D 2 ∂ 2 f ∂ x 2 ⇒ ∂ f ∂ t = D 2 τ ∂ 2 f ∂ x 2 Diffusion Equation f(x,t) + \frac{\partial f}{\partial t} \tau + O(\tau) = \int_{-\infty}^{+\infty} (f(x,t)- \frac{\partial f}{\partial x} y + \frac{1}{2}\frac{\partial^2 f}{\partial x^2} y^2 + O(y^2)) \rho(y) dy \\ f(x,t) + \frac{\partial f}{\partial t} \tau = f(x,t) \int_{-\infty}^{+\infty} \rho(y)dy - \frac{\partial f}{\partial x}\int_{-\infty}^{+\infty} y \rho(y) dy + \frac{1}{2}\frac{\partial^2 f}{\partial x^2}\int_{-\infty}^{+\infty} y^2\rho(y) dy \\ f(x,t) + \frac{\partial f}{\partial t} \tau = f(x,t) + 0 + \frac{D}{2}\frac{\partial^2 f}{\partial x^2} \\ \Rightarrow \frac{\partial f}{\partial t} \tau = \frac{D}{2}\frac{\partial^2 f}{\partial x^2} \\ \Rightarrow \frac{\partial f}{\partial t} = \frac{D}{2\tau}\frac{\partial^2 f}{\partial x^2} \\ \text{Diffusion Equation} f(x,t)+∂t∂fτ+O(τ)=∫−∞+∞(f(x,t)−∂x∂fy+21∂x2∂2fy2+O(y2))ρ(y)dyf(x,t)+∂t∂fτ=f(x,t)∫−∞+∞ρ(y)dy−∂x∂f∫−∞+∞yρ(y)dy+21∂x2∂2f∫−∞+∞y2ρ(y)dyf(x,t)+∂t∂fτ=f(x,t)+0+2D∂x2∂2f⇒∂t∂fτ=2D∂x2∂2f⇒∂t∂f=2τD∂x2∂2fDiffusion Equation
这个方程求解以后即可得到高斯过程
Let c = D 2 τ f ( x , t ) = 1 2 π c t e x p ( − x 2 2 c t ) \text{Let } c = \frac{D}{2 \tau}\\ f(x,t) = \frac{1}{\sqrt{2 \pi c t}} exp(-\frac{x^2}{2ct}) Let c=2τDf(x,t)=2πct1exp(−2ctx2)
说明扩散行为是可以用高斯进行描述的。因为随着时间的迁移,中间的分子量会减小,但是仍然保持中间多两边少的一种状态
3. 最大熵与高斯分布
3.1 双边无界
接下来,我们从信息论的角度,从最大熵的角度来看待高斯分布。
首先,我们需要明确随机变量熵的定义
Maximum Entropy \text{Maximum Entropy} Maximum Entropy
H ( Z ) = − ∫ − ∞ + ∞ f Z ( x ) l o g f Z ( x ) d x H(Z) = - \int_{-\infty}^{+\infty} f_Z(x) log f_Z(x)dx H(Z)=−∫−∞+∞fZ(x)logfZ(x)dx
所谓熵最大,就是该分布具有最大的随机性。我们首先选择分布区间是双边无穷的,并且限制好这个分布的均值和方差
Z ∈ ( − ∞ , + ∞ ) E ( Z ) = u E ( Z 2 ) = σ 2 Z \in (-\infty,+\infty) \quad E(Z) = u \quad E(Z^2) = \sigma^2 Z∈(−∞,+∞)E(Z)=uE(Z2)=σ2
事实上,这是一个条件极值问题,我们在限制分布的积分、分布的一阶矩、分布的二阶矩之后,去追寻最大熵。约束条件为
- 积分是1
- 一阶矩是u
- 二阶矩是σ2
G ( f ) = − ∫ R f ( x ) l o g f ( x ) d x + λ 1 ( ∫ − ∞ + ∞ f ( x ) d x − 1 ) + λ 2 ( ∫ − ∞ + ∞ x f ( x ) d x − u ) + λ 3 ( ∫ − ∞ + ∞ x 2 f ( x ) d x − σ 2 ) G(f) = -\int_R f(x) log f(x) dx + \lambda_1(\int_{-\infty}^{+\infty} f(x) dx - 1) +\lambda_2(\int_{-\infty}^{+\infty} xf(x) dx - u) + \lambda_3(\int_{-\infty}^{+\infty} x^2 f(x) dx - \sigma^2) G(f)=−∫Rf(x)logf(x)dx+λ1(∫−∞+∞f(x)dx−1)+λ2(∫−∞+∞xf(x)dx−u)+λ3(∫−∞+∞x2f(x)dx−σ2)
事实上,我们发现这个条件极值不好求,因为这个函数的函数,我们这是个泛函。为了能够对数求导,而不是对函数求导,这里我们使用欧拉变分法进行处理。
Variational Method \text{Variational Method} Variational Method
我们假设我们最优的函数是f0,然后我们定义熵是最优函数和一个任意函数g的线性组合
f ( x ) = f 0 + t g H ( t ) = G ( f 0 + t g ) t ∈ R f(x) = f_0 +tg \\ H(t) = G(f_0 +t g) \quad t \in \R f(x)=f0+tgH(t)=G(f0+tg)t∈R
因为f0是最优的函数,t为0的时候,一定能够达到最大熵的条件
H ( 0 ) = G ( f 0 ) ≥ G ( f 0 + t g ) = H ( t ) H(0) = G(f_0) \geq G(f_0 +t g) = H(t) H(0)=G(f0)≥G(f0+tg)=H(t)
因此,熵在t为0的时候一定是导数为0
∂ ∂ t H ( t ) ∣ t = 0 = 0 \frac{\partial}{\partial t} H(t) |_{t=0} = 0 ∂t∂H(t)∣t=0=0
我们的目标函数可以变成
H ( t ) = G ( f 0 + t g ) = − ∫ R ( f 0 + t g ) l o g ( f 0 + t g ) d x + λ 1 ( ∫ − ∞ + ∞ ( f 0 + t g ) d x − 1 ) + λ 2 ( ∫ − ∞ + ∞ x ( f 0 + t g ) d x − u ) + λ 3 ( ∫ − ∞ + ∞ x 2 ( f 0 + t g ) d x − σ 2 ) H(t) =G(f_0 +tg) = -\int_R (f_0 +tg) log (f_0 +tg) dx + \\ \lambda_1(\int_{-\infty}^{+\infty} (f_0 +tg) dx - 1) +\lambda_2(\int_{-\infty}^{+\infty} x (f_0 +tg) dx - u) + \lambda_3(\int_{-\infty}^{+\infty} x^2 (f_0 +tg) dx - \sigma^2) H(t)=G(f0+tg)=−∫R(f0+tg)log(f0+tg)dx+λ1(∫−∞+∞(f0+tg)dx−1)+λ2(∫−∞+∞x(f0+tg)dx−u)+λ3(∫−∞+∞x2(f0+tg)dx−σ2)
求导
∂ ∂ t H ( t ) = − ∫ R g l o g ( f 0 + t g ) d x − ∫ R g d x + λ 1 ∫ − ∞ + ∞ g d x + λ 2 ∫ − ∞ + ∞ g x d x + λ 3 ∫ − ∞ + ∞ g x 2 d x = ∫ − ∞ + ∞ g ( − l o g ( f 0 + t g ) + ( λ 1 − 1 ) + λ 2 x + λ 3 x 2 ) \frac{\partial}{\partial t} H(t) = -\int_R g log (f_0 +tg) dx - \int_R gdx +\lambda_1 \int_{-\infty}^{+\infty} gdx + \lambda_2 \int_{-\infty}^{+\infty} gx dx + \lambda_3 \int_{-\infty}^{+\infty} gx^2 dx \\ = \int_{-\infty}^{+\infty} g(-log (f_0 +tg)+(\lambda_1-1) +\lambda_2 x +\lambda_3 x^2) ∂t∂H(t)=−∫Rglog(f0+tg)dx−∫Rgdx+λ1∫−∞+∞gdx+λ2∫−∞+∞gxdx+λ3∫−∞+∞gx2dx=∫−∞+∞g(−log(f0+tg)+(λ1−1)+λ2x+λ3x2)
∂ ∂ t H ( t ) ∣ t = 0 = ∫ − ∞ + ∞ g ( − l o g ( f 0 ) + ( λ 1 − 1 ) + λ 2 x + λ 3 x 2 ) \frac{\partial}{\partial t} H(t) |_{t=0} = \int_{-\infty}^{+\infty} g(-log (f_0)+(\lambda_1-1) +\lambda_2 x +\lambda_3 x^2) ∂t∂H(t)∣t=0=∫−∞+∞g(−log(f0)+(λ1−1)+λ2x+λ3x2)
因为对任意的g成立,因此可以得到
− l o g ( f 0 ) + ( λ 1 − 1 ) + λ 2 x + λ 3 x 2 = 0 -log (f_0)+(\lambda_1-1) +\lambda_2 x +\lambda_3 x^2 = 0 −log(f0)+(λ1−1)+λ2x+λ3x2=0
f 0 = e x p ( λ 1 − 1 + λ 2 x + λ 3 x 2 ) f_0 = exp(\lambda_1-1 +\lambda_2 x +\lambda_3 x^2) f0=exp(λ1−1+λ2x+λ3x2)
得到的是一个指数的二次型,因此,得到的最大熵优化的结果一定是一个高斯分布。说明高斯分布的随机性是最强的,因此是最值得研究的。
求解之后可以得到这样的结果
f ( x ) = 1 2 π σ e x p ( − ( x − m ) 2 2 σ 2 ) Maximum Entropy ⇒ Gaussion f(x) = \frac{1}{\sqrt{2 \pi} \sigma} exp(-\frac{(x-m)^2}{2\sigma^2})\\ \text{Maximum Entropy} \Rightarrow \text{ Gaussion} f(x)=2πσ1exp(−2σ2(x−m)2)Maximum Entropy⇒ Gaussion
3.2 单边无界
如果是单边无界的话,约束条件就只需要对均值和积分有所约束
G ( f ) = − ∫ R f ( x ) l o g f ( x ) d x + λ 1 ( ∫ − ∞ + ∞ f ( x ) d x − 1 ) + λ 2 ( ∫ − ∞ + ∞ x f ( x ) d x − u ) G(f) = -\int_R f(x) log f(x) dx + \lambda_1(\int_{-\infty}^{+\infty} f(x) dx - 1) +\lambda_2(\int_{-\infty}^{+\infty} xf(x) dx - u) G(f)=−∫Rf(x)logf(x)dx+λ1(∫−∞+∞f(x)dx−1)+λ2(∫−∞+∞xf(x)dx−u)
最终得到的结果是没有二次项的
f 0 = e x p ( λ 1 − 1 + λ 2 x ) ⇒ f ( x ) = λ e x p ( − λ x ) I [ 0 , + ∞ ) ( x ) f_0 = exp(\lambda_1-1 +\lambda_2 x) \\ \Rightarrow f(x) = \lambda exp(-\lambda x) I_{[0,+\infty)}(x) f0=exp(λ1−1+λ2x)⇒f(x)=λexp(−λx)I[0,+∞)(x)
我们发现得到的是一个指数分布。指数分布最大的特点是无记忆性
[ 0 , ∞ ) s . t . ∫ x d x = 1 s . t . ∫ x f ( x ) d x = m Maximum Entropy ⇒ Exponential [0,\infty) \\ s.t. \int x dx = 1 \\ s.t. \int xf(x) dx = m \\ \text{Maximum Entropy} \Rightarrow \text{ Exponential} [0,∞)s.t.∫xdx=1s.t.∫xf(x)dx=mMaximum Entropy⇒ Exponential
3.3 双边有界
如果是双边有界,一阶矩的约束也就没有了
[ a , b ] s . t . ∫ x d x = 1 ⇒ G ( f ) = − ∫ R f ( x ) l o g f ( x ) d x + λ 1 ( ∫ − ∞ + ∞ f ( x ) d x − 1 ) ⇒ f 0 = e x p ( λ 1 − 1 ) ⇒ f ( x ) = λ Maximum Entropy ⇒ Uniform [a,b] \\ s.t. \int x dx = 1 \\ \Rightarrow G(f) = -\int_R f(x) log f(x) dx + \lambda_1(\int_{-\infty}^{+\infty} f(x) dx - 1) \\ \Rightarrow f_0 = exp(\lambda_1-1) \\ \Rightarrow f(x) = \lambda \text{Maximum Entropy} \Rightarrow \text{ Uniform } [a,b]s.t.∫xdx=1⇒G(f)=−∫Rf(x)logf(x)dx+λ1(∫−∞+∞f(x)dx−1)⇒f0=exp(λ1−1)⇒f(x)=λMaximum Entropy⇒ Uniform
我们发现,如果双边有界,得到的分布是均匀分布。
由于我们一般使用的是双边无界的分布,所以,一般我们更加经常使用的是高斯分布。
4. 中心极限定理、大数定理与高斯过程
4.1 中心极限定理
4.1.1 中心极限定理的描述
中心极限定理有很多种表示形式,这里介绍使用最广泛的一种
假设有n个独立同分布的随机变量。并且这些随机变量的均值和方差得到了规范化
Cnetral Limit Theorem Z 1 , Z 2 , . . . Z n i . i . d E ( Z k ) = 0 V a r ( Z k ) = 1 Then l i m n → + ∞ Z 1 + . . . + Z n n = N ( 0 , 1 ) Gaussian Universality \text{Cnetral Limit Theorem} \\ Z_1,Z_2,...Z_n \quad i.i.d \\ E(Z_k) = 0 \\ Var(Z_k) = 1 \\ \text{Then } lim_{n \rightarrow +\infty}\frac{Z_1 +...+Z_n}{\sqrt{n}} = N(0,1) \\ \text{Gaussian Universality} Cnetral Limit TheoremZ1,Z2,...Zni.i.dE(Zk)=0Var(Zk)=1Then limn→+∞nZ1+...+Zn=N(0,1)Gaussian Universality
则这个n是随机变量的和除以根号n,得到的是一个正态分布。
中心极限定理有两点值得注意的
- 中心极限定理表征的是大量的微小随机因素的叠加。
- 并且这些叠加最终可以得到一个高斯分布,而且我们没有限制这些随机因素到底是什么分布。
因此,通常我们会假设电子设备中的噪声是高斯噪声是有道理的,因为就等于无穷多的微小随机噪声的叠加,根据中心极限定理,就可以认为这些噪声是满足高斯分布的。
4.1.2 特征函数
接下来我们要验证中心极限定理是正确的,我们首先要引入特征函数的概念
Characteristic Function \text{Characteristic Function} Characteristic Function
一个概率密度函数的特征函数,实际上就是它的反傅里叶变换
ϕ Z ( ω ) = ∫ − ∞ + ∞ e x p ( j ω x ) f Z ( x ) d x \phi_Z(\omega) = \int_{-\infty}^{+\infty} exp(j\omega x) f_Z(x) dx ϕZ(ω)=∫−∞+∞exp(jωx)fZ(x)dx
由于特征函数一定大于0,复指函数一定大于0,因此这个傅里叶反变换一定是大于0的,因此,这个特征函数一定是正定的。
因此,特征函数和概率密度函数是傅里叶变换对的关系。因为傅里叶变换对是一对一的关系,因此,一个概率密度函数的特征函数也是唯一的
4.1.3 高斯分布的特征函数
接下来求一下高斯分布的特征函数,后面用的到
f Z ( x ) = 1 2 π σ e x p ( − ( x − m ) 2 2 σ 2 ) ϕ Z ( ω ) = ∫ − ∞ + ∞ e x p ( j ω x ) f Z ( x ) d x = ∫ − ∞ + ∞ e x p ( j ω x ) 1 2 π σ e x p ( − ( x − m ) 2 2 σ 2 ) d x = ∫ − ∞ + ∞ 1 2 π σ e x p ( − ( x − m ) 2 2 σ 2 + j ω x ) d x f_Z(x) = \frac{1}{\sqrt{2\pi}\sigma} exp(- \frac{(x-m)^2}{2 \sigma^2}) \phi_Z(\omega) = \int_{-\infty}^{+\infty} exp(j\omega x) f_Z(x) dx \\ = \int_{-\infty}^{+\infty} exp(j\omega x) \frac{1}{\sqrt{2\pi}\sigma} exp(- \frac{(x-m)^2}{2 \sigma^2}) dx \\ = \int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}\sigma} exp(- \frac{(x-m)^2}{2 \sigma^2} +j\omega x) dx fZ(x)=2πσ1exp(−2σ2(x−m)2)ϕZ(ω)=∫−∞+∞exp(jωx)fZ(x)dx=∫−∞+∞exp(jωx)2πσ1exp(−2σ2(x−m)2)dx=∫−∞+∞2πσ1exp(−2σ2(x−m)2+jωx)dx
上式可以进行配方
ϕ Z ( ω ) = ∫ − ∞ + ∞ 1 2 π σ e x p ( − ( x − m − j ω σ 2 ) 2 2 σ 2 + j ω m − ω 2 σ 2 2 ) d x = e x p ( j ω m − ω 2 σ 2 2 ) 1 2 π σ ∫ − ∞ + ∞ e x p ( − ( x − m − j ω σ 2 ) 2 2 σ 2 ) d x \phi_Z(\omega) = \int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}\sigma} exp(- \frac{(x-m-j\omega \sigma^2)^2}{2 \sigma^2} +j\omega m - \frac{\omega^2 \sigma^2}{2}) dx \\ = exp(j\omega m - \frac{\omega^2 \sigma^2}{2}) \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{+\infty} exp(- \frac{(x-m-j\omega \sigma^2)^2}{2 \sigma^2})dx ϕZ(ω)=∫−∞+∞2πσ1exp(−2σ2(x−m−jωσ2)2+jωm−2ω2σ2)dx=exp(jωm−2ω2σ2)2πσ1∫−∞+∞exp(−2σ2(x−m−jωσ2)2)dx
后面也是一个高斯分布,但是是带有复数的高斯分布。对于复变函数来说,复指函数中,带复数的积分和不带复数的积分是一样的。
下面的红线是实数的积分区间,上面的蓝线是复数的积分区间。
因为指数复函数在全平面是个解析函数,其解析函数的回路积分为0,我们可以构造这样的回路。
e x p ( − Z 2 2 σ 2 ) exp(-\frac{Z^2}{2 \sigma^2}) exp(−2σ2Z2)
其次,我们可以证明,当时间区域无穷大的时候,竖直的复变函数积分为0
∫ 0 ω σ 2 e x p ( − ( A + j y ) 2 2 σ 2 ) d y = ∫ 0 ω σ 2 e x p ( − A 2 2 σ 2 ) e x p ( j c 1 y ) e x p ( c 2 y 2 ) d y \int_{0}^{\omega \sigma^2} exp(-\frac{(A + jy)^2}{2 \sigma^2})dy \\ = \int_{0}^{\omega \sigma^2} exp(-\frac{A ^2}{2 \sigma^2}) exp(jc_1y) exp(c_2 y^2) dy ∫0ωσ2exp(−2σ2(A+jy)2)dy=∫0ωσ2exp(−2σ2A2)exp(jc1y)exp(c2y2)dy
因为y = ωσ2一定是有界的,后面两个指数是有界的。当积分区间无穷大的时候,A趋近于无穷大,指数趋近于0。就可以证明左右两端的积分是0。因此上下的积分结果是相等的
因此,我们可以得到
ϕ Z ( ω ) = e x p ( j ω m − ω 2 σ 2 2 ) 1 2 π σ ∫ − ∞ + ∞ e x p ( − ( x − m − j ω σ 2 ) 2 2 σ 2 ) d x = [ e x p ( j ω m − ω 2 σ 2 2 ) ] [ 1 2 π σ ∫ − ∞ + ∞ e x p ( − ( x − m ) 2 2 σ 2 ) d x ] \phi_Z(\omega) = exp(j\omega m - \frac{\omega^2 \sigma^2}{2}) \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{+\infty} exp(- \frac{(x-m-j\omega \sigma^2)^2}{2 \sigma^2})dx \\ = [exp(j\omega m - \frac{\omega^2 \sigma^2}{2})][ \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{+\infty} exp(- \frac{(x-m)^2}{2 \sigma^2})dx] ϕZ(ω)=exp(jωm−2ω2σ2)2πσ1∫−∞+∞exp(−2σ2(x−m−jωσ2)2)dx=[exp(jωm−2ω2σ2)][2πσ1∫−∞+∞exp(−2σ2(x−m)2)dx]
后面就是一个标准的高斯分布,积分为1。而前面一部分也是一个高斯分布。并且如果均值m为0,就是一个标准的高斯分布。
ϕ
Z
(
ω
)
=
e
x
p
(
j
ω
m
−
ω
2
σ
2
2
)
\phi_Z(\omega) = exp(j\omega m - \frac{\omega^2 \sigma^2}{2})
ϕZ(ω)=exp(jωm−2ω2σ2)
我们可以得到,高斯分布的特征函数仍然是一个高斯分布。也就是高斯函数经过傅里叶变换之后,仍然是高斯,改变的不过是形状的粗细和胖瘦。如果时域高斯是瘦的,频域高斯就一定是胖的。
均值为0的高斯分布的特征函数如下
1 2 π σ e x p ( − x 2 2 σ 2 ) ↔ e x p ( − 1 2 σ 2 ω 2 ) \frac{1}{\sqrt{2\pi}\sigma}exp(- \frac{x^2}{2 \sigma^2}) \leftrightarrow exp(-\frac{1}{2}\sigma^2 \omega^2) 2πσ1exp(−2σ2x2)↔exp(−21σ2ω2)
4.1.4 特征函数与随机变量和的分布
特征函数非常适合处理随机变量和的问题。因为如果n个随机变量的和的分布函数,是这个n个随机变量分布函数的卷积。
我们可以证明一下
Z 1 , Z 2 , . . . , Z n i . i . d ⇒ ϕ Z k ( n ) Y = Z 1 + . . . + Z n Z_1,Z_2,...,Z_n \quad i.i.d \quad \Rightarrow \phi_{Z_k}(n)\\ Y = Z_1 + ...+Z_n \\ Z1,Z2,...,Zni.i.d⇒ϕZk(n)Y=Z1+...+Zn
假设n个独立同分布随机变量Z,其特征函数为φ,因为是同分布,因此,所有的特征函数都是一样的
ϕ ( Y ) = Φ ( Z 1 + . . . + Z n ) = E ( e x p ( j ω Y ) ) = E ( e x p ( j ω ∑ k = 1 n Z k ) ) = E ( ∏ k = 1 n e x p ( j ω Z k ) ) = ∏ k = 1 n E ( e x p ( j ω Z k ) ) = ∏ k = 1 n ϕ Z k ( ω ) \phi(Y) = \Phi(Z_1+...+Z_n) \\ = E(exp(j\omega Y)) = E(exp(j \omega \sum_{k=1}^n Z_k)) \\ = E(\prod_{k=1}^n exp(j\omega Z_k)) \\ = \prod_{k=1}^n E(exp(j\omega Z_k)) \\ = \prod_{k=1}^n \phi_{Z_k}(\omega) ϕ(Y)=Φ(Z1+...+Zn)=E(exp(jωY))=E(exp(jωk=1∑nZk))=E(k=1∏nexp(jωZk))=k=1∏nE(exp(jωZk))=k=1∏nϕZk(ω)
我们发现n个独立同分布随机变量的和的特征函数是乘积的形式,那么这个和必然在时域上就是卷积的形式,因此n个独立同分布随机变量的和的概率密度是这些随机变量概率密度的卷积。
4.1.5 中心极限定理的证明
l i m n → + ∞ Z 1 + . . . + Z n n = N ( 0 , 1 ) E ( Z k ) = 0 V a r ( Z k ) = 1 lim_{n \rightarrow +\infty}\frac{Z_1 +...+Z_n}{\sqrt{n}} = N(0,1) \\ E(Z_k) = 0 \\ Var(Z_k) = 1 \\ limn→+∞nZ1+...+Zn=N(0,1)E(Zk)=0Var(Zk)=1
有了特征函数的概念之后,我们就能够证明中心极限定理了,我们只需要证明左边式子的特征函数等于右边函数的特征函数即可
Left \text{Left} Left
Φ Z 1 + . . . + Z n n = E ( e x p ( j ω Z 1 + . . . + Z n n ) ) = ϕ Z 1 + . . . + Z n ( ω n ) = ∫ − ∞ + ∞ e x p ( j ω Z 1 + . . . + Z n n ) f ( Z 1 + . . . + Z n n ) d Z 1 + . . . + Z n n = ∏ k = 1 n ∫ − ∞ + ∞ e x p ( j ω Z k n ) f ( Z k n ) d Z k n = ∏ k = 1 n ϕ Z k ( ω n ) \Phi_{\frac{Z_1 +...+Z_n}{\sqrt{n}}} = E(exp(j\omega\frac{Z_1 +...+Z_n}{\sqrt{n}})) \\ = \phi_{Z_1 + ... +Z_n}(\frac{\omega}{\sqrt{n}}) \\ = \int_{-\infty}^{+\infty} exp(j\omega\frac{Z_1 +...+Z_n}{\sqrt{n}}) f(\frac{Z_1 +...+Z_n}{\sqrt{n}}) d \frac{Z_1 +...+Z_n}{\sqrt{n}} \\ = \prod_{k=1}^n \int_{-\infty}^{+\infty} exp(j\omega \frac{Z_k}{\sqrt{n}}) f(\frac{Z_k}{\sqrt{n}}) d\frac{Z_k}{\sqrt{n}} \\ = \prod_{k=1}^n \phi_{Z_k}(\frac{\omega}{\sqrt{n}}) ΦnZ1+...+Zn=E(exp(jωnZ1+...+Zn))=ϕZ1+...+Zn(nω)=∫−∞+∞exp(jωnZ1+...+Zn)f(nZ1+...+Zn)dnZ1+...+Zn=k=1∏n∫−∞+∞exp(jωnZk)f(nZk)dnZk=k=1∏nϕZk(nω)
同分布意味着分布函数都是一样的,因此上式可以表示为
Φ Z 1 + . . . + Z n n = ∏ k = 1 n ϕ Z k ( ω n ) = ( ϕ ( ω n ) ) n ( 1 ) \Phi_{\frac{Z_1 +...+Z_n}{\sqrt{n}}} = \prod_{k=1}^n \phi_{Z_k}(\frac{\omega}{\sqrt{n}}) \\ = (\phi(\frac{\omega}{\sqrt{n}}))^n \quad\quad (1)\\ ΦnZ1+...+Zn=k=1∏nϕZk(nω)=(ϕ(nω))n(1)
我们用泰勒展开表示一下这个特征函数,对e展开到二阶。由于虚数平方是负的,注意二阶项的符号也是负的
ϕ ( ω n ) = E ( e x p ( j Z ω n ) ) = E ( 1 + j ω n Z − 1 2 Z 2 ω 2 n + O ( 1 n ) ) \phi(\frac{\omega}{\sqrt{n}}) = E(exp(jZ\frac{\omega}{\sqrt{n}} )) \\ = E(1 +j\frac{\omega}{\sqrt{n}}Z -\frac{1}{2}Z^2 \frac{\omega^2}{n} + O(\frac{1}{n} )) ϕ(nω)=E(exp(jZnω))=E(1+jnωZ−21Z2nω2+O(n1))
我们前面约束过了随机变量Z的均值为0,方差为1。可以用在这里面
ϕ ( ω n ) = 1 − 1 2 ω 2 n + O ( 1 n ) ( 2 ) \phi(\frac{\omega}{\sqrt{n}}) = 1- \frac{1}{2} \frac{\omega^2}{n} + O(\frac{1}{n}) \quad\quad (2) ϕ(nω)=1−21nω2+O(n1)(2)
把(2)式代入(1)中,并且使用等价无穷小表示极限可以得到
l i m n → + ∞ Φ Z 1 + . . . + Z n n = l i m n → + ∞ ( ϕ ( ω n ) ) n = l i m n → + ∞ ( 1 − 1 2 ω 2 n + O ( 1 n ) ) n = l i m n → + ∞ e x p [ n l o g ( 1 − 1 2 ω 2 n ) ] ∼ e x p ( n ∗ ( − 1 2 ω 2 n ) ) = e x p ( − 1 2 ω 2 ) lim_{n \rightarrow +\infty}\Phi_{\frac{Z_1 +...+Z_n}{\sqrt{n}}} = lim_{n \rightarrow +\infty}(\phi(\frac{\omega}{\sqrt{n}}))^n \\ = lim_{n \rightarrow +\infty}(1- \frac{1}{2} \frac{\omega^2}{n} + O(\frac{1}{n}))^n \\ = lim_{n \rightarrow +\infty}exp [n log(1- \frac{1}{2} \frac{\omega^2}{n})] \sim exp(n*(- \frac{1}{2} \frac{\omega^2}{n})) \\ = exp(-\frac{1}{2}\omega^2) limn→+∞ΦnZ1+...+Zn=limn→+∞(ϕ(nω))n=limn→+∞(1−21nω2+O(n1))n=limn→+∞exp[nlog(1−21nω2)]∼exp(n∗(−21nω2))=exp(−21ω2)
然后我们求一下右边式子的特征函数
Right \text{Right} Right
我们前面已经得到了高斯分布的特征函数
1 2 π σ e x p ( − x 2 2 σ 2 ) ↔ e x p ( − 1 2 σ 2 ω 2 ) \frac{1}{\sqrt{2\pi}\sigma}exp(- \frac{x^2}{2 \sigma^2}) \leftrightarrow exp(-\frac{1}{2}\sigma^2 \omega^2) 2πσ1exp(−2σ2x2)↔exp(−21σ2ω2)
令方差为1可得
e x p ( − 1 2 ω 2 ) exp(-\frac{1}{2}\omega^2) exp(−21ω2)
左式等于右式,因此中心极限定理成立
因此,我们引入了特征函数,可以帮助我们理解随机变量的叠加问题。
4.2 大数定理证明
我们也可以用同样的方法证明大数定理
Law of Large Numbers l i m n → + ∞ Z 1 + . . . + Z n n = m Z 1 , . . . Z n i . i . d E ( Z i ) = m \text{Law of Large Numbers} \\ lim_{n \rightarrow +\infty}\frac{Z_1 + ... +Z_n}{n} =m \\ Z_1,...Z_n \quad i.i.d \\ E(Z_i) = m Law of Large Numberslimn→+∞nZ1+...+Zn=mZ1,...Zni.i.dE(Zi)=m
如果m个独立同分布的随机变量均值为m,那么这些随机变量的和除以n的均值也是m
值得注意的是,大数定理下面除的是n,中心极限定理下面除的是根号n
我们表示一下特征函数
Φ
Z
1
+
.
.
.
+
Z
n
n
=
∏
k
=
1
n
ϕ
Z
k
(
ω
n
)
=
(
ϕ
(
ω
n
)
)
n
\Phi_{\frac{Z_1 +...+Z_n}{n}} = \prod_{k=1}^n \phi_{Z_k}(\frac{\omega}{n}) = (\phi(\frac{\omega}{n}))^n
ΦnZ1+...+Zn=k=1∏nϕZk(nω)=(ϕ(nω))n
然后求一下单个随机变量的特征函数,用泰勒展开到一阶项
ϕ ( ω n ) = E ( e x p ( j Z ω n ) ) = E ( 1 + j Z ω n + O ( 1 n ) ) = 1 + j m ω n \phi(\frac{\omega}{n}) = E(exp(j Z \frac{\omega}{n})) = E(1+ jZ\frac{\omega}{n} +O(\frac{1}{n})) = 1+ j\frac{m\omega}{n} ϕ(nω)=E(exp(jZnω))=E(1+jZnω+O(n1))=1+jnmω
( ϕ ( ω n ) ) n = ( 1 + j m ω n ) n = e j m ω (\phi(\frac{\omega}{n}))^n = (1+ j\frac{m\omega}{n})^n = e^{jm \omega} (ϕ(nω))n=(1+jnmω)n=ejmω
这个是概率密度函数为δ(x-m)的特征函数
f ( x ) = { ∞ if x = m 0 if o t h e r s f(x) = \begin{cases} \infty &\text{if } x=m \\ 0 &\text{if } others \end{cases} f(x)={∞0if x=mif others
求一下特征函数
∫ − ∞ + ∞ f ( x ) e x p ( j ω x ) d x = ∫ − ∞ + ∞ δ ( x − m ) e x p ( j ω x ) d x = e x p ( j ω m ) ∫ − ∞ + ∞ δ ( x − m ) d x = e x p ( j ω m ) \int_{-\infty}^{+\infty} f(x) exp(j\omega x) dx \\ = \int_{-\infty}^{+\infty} \delta(x-m) exp(j \omega x) dx \\ = exp(j \omega m) \int_{-\infty}^{+\infty} \delta(x-m) dx = exp(j \omega m) ∫−∞+∞f(x)exp(jωx)dx=∫−∞+∞δ(x−m)exp(jωx)dx=exp(jωm)∫−∞+∞δ(x−m)dx=exp(jωm)
求一下均值
E ( f ( x ) ) = ∫ − ∞ + ∞ x f ( x ) d x = ∫ − ∞ + ∞ x δ ( x − m ) d x = m ∫ − ∞ + ∞ δ ( x − m ) d x = m E(f(x))= \int_{-\infty}^{+\infty} x f(x) dx = \int_{-\infty}^{+\infty} x \delta(x-m) dx \\ = m\int_{-\infty}^{+\infty} \delta(x-m) dx = m E(f(x))=∫−∞+∞xf(x)dx=∫−∞+∞xδ(x−m)dx=m∫−∞+∞δ(x−m)dx=m
然后,我们就得到了大数定理
4.3 中心极限定理与大数定理的关系
大数据定理和中心极限定理告诉我们,n个独立同分布随机变量的和是和n的某个幂次同阶的。当n是半阶的时候,对随机性的压缩没有那么大,会得到一个高斯分布。而如果n是1阶的话,随机性是完全消失了的,但是如果n再大任意一点,得到的就是结果就是0。因为相当于是一个常数,再除以n的幂次了
l i m n → ∞ Z 1 + . . . + Z n n 1 + δ = 0 lim_{n \rightarrow \infty} \frac{Z_1 + ...+Z_n}{n^{1 + \delta}} = 0 limn→∞n1+δZ1+...+Zn=0
中心极限定理和大数定理之间的阶次有一个临界点,如果阶次再大一点,就是常数了,一直到到大数定理都是常数。这个临界点被证明出来了
n l n l n n \sqrt{n ln lnn} nlnlnn
得到的这个结果叫做重对数律
4.3 中心极限定理的应用–随机游动问题
下面基于中心极限定理,我们研究一下随机游动现象。我们会发现,用中心极限定理研究随机游动现象得到的结论也是一个高斯过程。
我们假设Z(t)表示t时刻在数轴上的位置
Z ( t ) t = n Δ t Z(t) \quad t = n \Delta t Z(t)t=nΔt
每个时刻都有相同的概率可以往左或者往右移动一格。每次移动的距离都是△x,每次游动的概率都是1/2
我们要明确的问题是,在(0,t)时刻内,到底走到了哪里
我们定义一个函数Sn表示向右移动的次数
S n Step Number to Right S_n \quad \text{Step Number to Right} SnStep Number to Right
则,t时刻在数轴上的位置可以表示为向左的次数和向右的次数的和
Z ( t ) = S n Δ x + ( n − S n ) ( − Δ x ) = Δ x ( 2 S n − n ) Z(t) = S_n \Delta x +(n-S_n)(-\Delta x) = \Delta x (2S_n-n) Z(t)=SnΔx+(n−Sn)(−Δx)=Δx(2Sn−n)
我们假设Zk表示第k次的移动情况,第k个时刻向右走记做1,向左走记做0
Z k = { 1 right 0 left Z_k = \begin{cases} 1 &\text{right } \\ 0 &\text{left } \end{cases} Zk={10right left
则Sn可以表示为
S n = Z 1 + . . . + Z n S_n = Z_1 +... +Z_n Sn=Z1+...+Zn
我们计算一下均值
E ( Z ( t ) ) = Δ x E ( S n ) + ( n − E ( S n ) ) ( − Δ x ) = Δ x ( 2 E ( S n ) − n ) = 0 E(Z(t)) = \Delta x E(S_n)+(n-E(S_n))(-\Delta x) \\ = \Delta x (2E(S_n)-n) = 0 E(Z(t))=ΔxE(Sn)+(n−E(Sn))(−Δx)=Δx(2E(Sn)−n)=0
计算一下方差
V a r ( Z ( t ) ) = Δ x 2 V a r ( 2 S n − n ) = Δ x 2 V a r ( 2 S n ) = 4 Δ x 2 V a r ( S n ) = 4 Δ x 2 V a r ( Z 1 + . . . + Z n ) = 4 Δ x 2 ( V a r ( Z 1 ) + . . . + V a r ( Z n ) ) = 4 Δ x 2 1 4 n = n Δ x 2 Var(Z(t)) = \Delta x^2 Var(2S_n -n) = \Delta x^2 Var(2S_n) \\ = 4 \Delta x^2 Var(S_n) = 4 \Delta x^2 Var(Z_1 + ... +Z_n) \\ = 4 \Delta x^2(Var(Z_1) +... +Var(Z_n)) \\ = 4 \Delta x^2 \frac{1}{4} n \\ = n \Delta x^2 Var(Z(t))=Δx2Var(2Sn−n)=Δx2Var(2Sn)=4Δx2Var(Sn)=4Δx2Var(Z1+...+Zn)=4Δx2(Var(Z1)+...+Var(Zn))=4Δx241n=nΔx2
由于我们希望使用中心极限定理,我们要把每个Z(t)变成期望为0,方差为1的随机变量,所以,我们就要除以方差的根号
Z ( t ) = Δ x ( 2 S n − n ) = S n − n 2 1 4 n ∗ n ∗ Δ x = S n − n 2 1 4 n ∗ Δ x ∗ t Δ t = S n − n 2 1 4 n ∗ Δ x Δ t t Z(t) = \Delta x (2S_n-n) \\ = \frac{S_n - \frac{n}{2}}{\sqrt{\frac{1}{4}}\sqrt{n}}*\sqrt{n}*\Delta x \\ = \frac{S_n - \frac{n}{2}}{\sqrt{\frac{1}{4}}\sqrt{n}}*\Delta x*\sqrt{\frac{t}{\Delta t}} \\ = \frac{S_n - \frac{n}{2}}{\sqrt{\frac{1}{4}}\sqrt{n}}*\frac{\Delta x}{\sqrt{\Delta t}} \sqrt{t} \\ Z(t)=Δx(2Sn−n)=41nSn−2n∗n∗Δx=41nSn−2n∗Δx∗Δtt=41nSn−2n∗ΔtΔxt
在这里我们对x和t趋近于0的速度做一个约束
Let
l
i
m
Δ
x
→
0
,
Δ
t
→
0
(
Δ
x
Δ
t
)
2
=
D
Then
Z
(
t
)
=
S
n
−
n
2
1
4
n
∗
D
t
\text{Let } lim_{\Delta x \rightarrow 0,\Delta t \rightarrow 0}(\frac{\Delta x}{\sqrt{\Delta t}})^2 = D \\ \text{Then } \\ Z(t) = \frac{S_n - \frac{n}{2}}{\sqrt{\frac{1}{4}}\sqrt{n}}* \sqrt{Dt}
Let limΔx→0,Δt→0(ΔtΔx)2=DThen Z(t)=41nSn−2n∗Dt
我们发现现在随机变量Z(t)变成了,前面是均值0方差1的随机变量,后面乘以常数 \sqrt{Dt}
因此,对Z(t)使用中心极限定理的话,可以得到
l i m n → ∞ Z 1 ( t ) + . . . + Z n ( t ) n = N ( 0 , 1 ) D t = N ( 0 , D t ) = 1 2 π D t e x p ( − x 2 2 D t ) lim_{n \rightarrow \infty}\frac{Z_1(t) + ... +Z_n (t)}{\sqrt{n}} = N(0,1) \sqrt{D t} = N(0,Dt) \\ = \frac{1}{\sqrt{2 \pi Dt}} exp(-\frac{x^2}{2Dt}) limn→∞nZ1(t)+...+Zn(t)=N(0,1)Dt=N(0,Dt)=2πDt1exp(−2Dtx2)
得到了与分子扩散运动一样的结果。我们发现随机游动经过中心极限定理之后也可以转化为高斯过程。因此,我们可以发现高斯过程是非常普遍的。