【随机过程】8 - 多元高斯分布及其线性性质

多元高斯分布及其线性性质

1. 高斯过程定义

  上一部分,我们通过分子扩散、最大熵优化、中心极限定理三个问题,对高斯分布及高斯过程的应用性有了一定的了解。

  那么,到底什么是高斯过程呢?

Gaussian Processes \text{Gaussian Processes} Gaussian Processes

  如果一个随机过程是高斯过程,那么我们在这个随机过程中任意取n个点,得到一个随机矢量,那么这个随机矢量,一定是服从多元高斯分布的

Z ( t )  is Gaussian ∀ n ∀ t t 1 ≤ t 2 . . . ≤ t n Z = { Z 1 ( t ) , . . . , Z n ( t ) } T Z ∼ N ( μ , Σ ) Z ∈ R n Z(t) \text{ is Gaussian} \\ \forall n \quad \forall t \quad t_1 \leq t_2 ... \leq t_n \\ Z = \{Z_1(t),...,Z_n(t) \}^T \\ Z \sim N(\mu,\Sigma) \quad Z \in \R^n Z(t) is Gaussianntt1t2...tnZ={Z1(t),...,Zn(t)}TZN(μ,Σ)ZRn

2. 从高斯分布到多元高斯分布

2.1 定义

  因为高斯过程的采样行为就得到了多元高斯分布。我们对高斯过程的了解首先就会从多元高斯分布开始。

  如果n=1,得到的是一个一维的高斯分布

n = 1 f Z ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) E ( Z ) = μ V a r ( Z ) = σ 2 n=1 \quad f_Z(x) = \frac{1}{\sqrt{2 \pi}\sigma} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) \\ E(Z) = \mu \quad Var(Z) = \sigma^2 n=1fZ(x)=2π σ1exp(2σ2(xμ)2)E(Z)=μVar(Z)=σ2

  如果n=2得到的是一个二维的高斯分布

n = 2 f Z 1 Z 2 ( x 1 , x 2 ) = 1 2 π σ 1 σ 2 1 − ρ 2 e x p ( − 1 2 ( 1 − ρ 2 ) ( ( x 1 − μ 1 σ 1 ) 2 + ( x 2 − μ 2 σ 1 ) 2 − 2 ρ x 1 − μ 1 ρ 1 x 2 − μ 2 ρ 2 ) ) E ( Z 1 ) = μ 1 E ( Z 2 ) = μ 2 V a r ( Z 1 ) = σ 1 2 V a r ( Z 2 ) = σ 2 2 n = 2 \quad f_{Z_1Z_2}(x_1,x_2) = \frac{1}{2 \pi\sigma_1 \sigma_2 \sqrt{1 - \rho^2}} exp(-\frac{1}{2(1-\rho^2)}((\frac{x_1 - \mu_1}{\sigma_1})^2+(\frac{x_2-\mu_2}{\sigma_1})^2-2\rho \frac{x_1-\mu_1}{\rho_1}\frac{x_2-\mu_2}{\rho_2})) \\ E(Z_1) = \mu_1 \quad E(Z_2) = \mu_2 \quad Var(Z_1) = \sigma_1^2 \quad Var(Z_2) = \sigma_2^2 n=2fZ1Z2(x1,x2)=2πσ1σ21ρ2 1exp(2(1ρ2)1((σ1x1μ1)2+(σ1x2μ2)22ρρ1x1μ1ρ2x2μ2))E(Z1)=μ1E(Z2)=μ2Var(Z1)=σ12Var(Z2)=σ22

  其中ρ是两个随机变量的协方差

ρ = E ( Z 1 − μ 1 ) E ( Z 2 − μ 2 ) \rho = E(Z_1 - \mu_1)E(Z_2 - \mu_2) ρ=E(Z1μ1)E(Z2μ2)

  然后我们就可以给出n元高斯分布的定义了

n f Z ( x ) = 1 ( 2 π ) n 2 ( det ⁡ Σ ) 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) μ ∈ R n E ( Z ) = μ Σ ∈ R n ∗ n E ( ( Z − μ ) T ( Z − μ ) ) = Σ n \quad f_Z(x) = \frac{1}{(2\pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} exp(-\frac{1}{2}(x - \mu)^T \Sigma^{-1} (x-\mu)) \\ \mu \in \R^n \quad E(Z) = \mu \\ \Sigma \in \R^{n*n} \quad E((Z-\mu)^T(Z - \mu)) = \Sigma nfZ(x)=(2π)2n(detΣ)211exp(21(xμ)TΣ1(xμ))μRnE(Z)=μΣRnnE((Zμ)T(Zμ))=Σ

  这里面Z表示n个随机变量组成的随机矢量,这个随机矢量是均值向量是μ,随机矢量的协方差矩阵是∑。并且注意,在指数中的协方差矩阵是个逆。det是取行列式

2.2 多元高斯概率密度函数

  有了多元高斯分布的概率密度函数之后,我们可以先做一番检查,看看是否符合一般概率密度函数的性质

f Z ( x ) = 1 ( 2 π ) n 2 ( det ⁡ Σ ) 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) μ ∈ R n E ( Z ) = μ Σ ∈ R n ∗ n E ( ( Z − μ ) T ( Z − μ ) ) = Σ \quad f_Z(x) = \frac{1}{(2\pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} exp(-\frac{1}{2}(x - \mu)^T \Sigma^{-1} (x-\mu)) \\ \mu \in \R^n \quad E(Z) = \mu \\ \Sigma \in \R^{n*n} \quad E((Z-\mu)^T(Z - \mu)) = \Sigma fZ(x)=(2π)2n(detΣ)211exp(21(xμ)TΣ1(xμ))μRnE(Z)=μΣRnnE((Zμ)T(Zμ))=Σ
  首先检查多元高斯的概率密度函数是否是大于0的。

  由于指数函数大于0,只需要考虑行列式即可。而相关矩阵(协方差矩阵)必定是非负定的,因此其行列式必定也大于等于0

f Z ( x ) ≥ 0 f_Z(x) \geq 0 fZ(x)0

  然后检查概率密度函数积分是否为1

∫ R n f Z ( x ) d x = 1 \int_{\R^n} f_Z(x) dx = 1 RnfZ(x)dx=1

  我们来计算一下这个积分

∫ R n 1 ( 2 π ) n 2 ( det ⁡ Σ ) 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) d x \int_{\R^n} \frac{1}{(2\pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} exp(-\frac{1}{2}(x - \mu)^T \Sigma^{-1} (x-\mu)) dx Rn(2π)2n(detΣ)211exp(21(xμ)TΣ1(xμ))dx

  这里面比较难搞的就是相关矩阵的逆,如果能够把相关矩阵对角化,就能够变成累加和的形成分别积分。

  由于相关矩阵是对称的,因此必然可以做特征分解

Σ = Σ T Σ = U T Λ U Σ − 1 = U T Λ − 1 U \Sigma = \Sigma^T \\ \Sigma = U^T \Lambda U \\ \Sigma^{-1} = U^T \Lambda^{-1} U Σ=ΣTΣ=UTΛUΣ1=UTΛ1U

  其中

U ∗ U T = U T U = I Λ = d i a g ( λ 1 , . . . , λ n ) Λ ≥ 0 ⇒ λ k ≥ 0 U*U^T = U^T U = I \\ \Lambda = diag(\lambda_1,...,\lambda_n) \\ \Lambda \geq 0 \Rightarrow \lambda_k \geq 0 UUT=UTU=IΛ=diag(λ1,...,λn)Λ0λk0

  然后拆分成两部分,方便分给左右的矢量

Σ − 1 = ( U T Λ − 1 2 U ) ( U T Λ − 1 2 U ) = L T L \Sigma^{-1} =( U^T \Lambda^{-\frac{1}{2}} U) (U^T \Lambda^{-\frac{1}{2}} U) = L^T L Σ1=(UTΛ21U)(UTΛ21U)=LTL

  因此

( x − μ ) T Σ − 1 ( x − μ ) = ( ( x − μ ) T L T ) ( L ( x − μ ) ) (x - \mu)^T \Sigma^{-1} (x-\mu) = ((x - \mu)^T L^T) (L (x-\mu)) (xμ)TΣ1(xμ)=((xμ)TLT)(L(xμ))

  然后做积分换元

y = L ( x − μ ) y = L (x-\mu) y=L(xμ)

d x = ∣ d e t ( d x d y ) ∣ d y d x d y = ( d y d x ) − 1 = ∣ d e t L − 1 ∣ = ∣ d e t L ∣ − 1 dx = |det(\frac{dx}{dy})| dy \frac{dx}{dy} = (\frac{dy}{dx})^{-1} = |det L^{-1}| = |det L|^{-1} dx=det(dydx)dydydx=(dxdy)1=detL1=detL1

∫ R n 1 ( 2 π ) n 2 ( det ⁡ Σ ) 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) d x = ∫ R n 1 ( 2 π ) n 2 ( det ⁡ Σ ) 1 2 e x p ( − 1 2 y T y ) ∣ d e t L ∣ − 1 d y \int_{\R^n} \frac{1}{(2\pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} exp(-\frac{1}{2}(x - \mu)^T \Sigma^{-1} (x-\mu)) dx \\ = \int_{\R^n} \frac{1}{(2\pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} exp(-\frac{1}{2}y^Ty) |det L|^{-1}dy Rn(2π)2n(detΣ)211exp(21(xμ)TΣ1(xμ))dx=Rn(2π)2n(detΣ)211exp(21yTy)detL1dy

  然后

Σ − 1 = L T L ∣ d e t Σ − 1 ∣ = ∣ d e t L ∣ 2 ∣ d e t Σ ∣ − 1 = ∣ d e t L ∣ 2 ⇒ ∣ d e t L ∣ = ∣ d e t Σ ∣ − 1 2 \Sigma^{-1} = L^T L \\ |det \Sigma^{-1}| = |detL|^2 \\ |det \Sigma|^{-1} = |det L|^2 \\ \Rightarrow |det L| = |det \Sigma|^{-\frac{1}{2}} Σ1=LTLdetΣ1=detL2detΣ1=detL2detL=detΣ21

  代入原式

∫ R n f Z ( x ) d x = ∫ R n 1 ( 2 π ) n 2 ( det ⁡ Σ ) 1 2 e x p ( − 1 2 y T y ) ∣ d e t L ∣ − 1 d y = ∫ R n 1 ( 2 π ) n 2 ( det ⁡ Σ ) 1 2 e x p ( − 1 2 y T y ) ∣ d e t Σ ∣ 1 2 d y = ∫ R n 1 ( 2 π ) n 2 e x p ( − 1 2 y T y ) d y = 1 ( 2 π ) n 2 ∫ − ∞ + ∞ . . . ∫ − ∞ + ∞ e x p ( − 1 2 ( y 1 2 + . . . + y n 2 ) ) d y 1 . . . d y n = ∏ k = 1 n ( 1 2 π ∫ − ∞ + ∞ e x p ( − y k 2 2 ) d y k ) = 1 \int_{\R^n} f_Z(x) dx= \int_{\R^n} \frac{1}{(2\pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} exp(-\frac{1}{2}y^Ty) |det L|^{-1}dy \\ = \int_{\R^n} \frac{1}{(2\pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} exp(-\frac{1}{2}y^Ty) |det \Sigma|^{\frac{1}{2}}dy \\ = \int_{\R^n} \frac{1}{(2\pi)^{\frac{n}{2}}} exp(-\frac{1}{2}y^Ty) dy \\ = \frac{1}{(2\pi)^{\frac{n}{2}}}\int_{-\infty}^{+\infty}...\int_{-\infty}^{+\infty} exp(-\frac{1}{2}(y_1^2 +...+y_n^2))dy_1...dy_n\\ =\prod_{k=1}^n (\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{+\infty} exp(-\frac{y_k^2}{2}) dy_k) = 1 RnfZ(x)dx=Rn(2π)2n(detΣ)211exp(21yTy)detL1dy=Rn(2π)2n(detΣ)211exp(21yTy)detΣ21dy=Rn(2π)2n1exp(21yTy)dy=(2π)2n1+...+exp(21(y12+...+yn2))dy1...dyn=k=1n(2π 1+exp(2yk2)dyk)=1

2.3 多元高斯特征函数

  然后再来研究一下多元高斯的特征函数,假设Z满足n维高斯分布

Z ∈ R n Z ∼ N ( μ , Σ ) Z \in \R^n \quad Z \sim N(\mu, \Sigma) ZRnZN(μ,Σ)

  n元高斯特征函数就是做多维傅里叶变换(不完全一样,复指函数符号不同)

ϕ Z ( ω ) = E ( e x p ( j ω T Z ) ) = ∫ R n f Z ( x 1 , . . . , x n ) e x p ( j ( ω 1 x 1 + . . . + ω n x n ) ) d x 1 . . . d x n \phi_Z(\omega) = E(exp(j \omega^T Z)) = \int_{\R^n} f_Z(x_1,...,x_n) exp(j(\omega_1 x_1 +...+ \omega_n x_n)) dx_1 ... dx_n ϕZ(ω)=E(exp(jωTZ))=RnfZ(x1,...,xn)exp(j(ω1x1+...+ωnxn))dx1...dxn

  一元的表示为

Z ∼ N ( μ , σ 2 ) ϕ Z ( ω ) = e x p ( j ω μ − 1 2 σ 2 ω 2 ) Z \sim N(\mu, \sigma^2) \\ \phi_Z(\omega) = exp(j\omega \mu - \frac{1}{2} \sigma^2 \omega^2) ZN(μ,σ2)ϕZ(ω)=exp(jωμ21σ2ω2)

  多元即把标量变成向量即可

Z ∈ R n Z ∼ N ( μ , Σ ) ϕ Z ( ω ) = e x p ( j ω T μ − 1 2 ω T Σ ω ) Z \in \R^n \quad Z \sim N(\mu, \Sigma) \\ \phi_Z(\omega) = exp(j\omega^T \mu - \frac{1}{2} \omega^T \Sigma \omega) ZRnZN(μ,Σ)ϕZ(ω)=exp(jωTμ21ωTΣω)

  需要与概率密度函数比较一下

  • 概率密度函数指数中的协方差是个逆
  • 特征函数指数中的协方差不是逆,因此更加的好求

2.4 多元高斯的线性性质

  多元高斯的线性性质:总的来说就是,如果一个随机矢量满足多元高斯分布,对这个随机矢量做任意线性变换,得到的随机矢量仍然满足多元高斯分布

Linearity Z ∈ R m Z ∼ N ( μ Z , Σ Z ) A ∈ R n ∗ m Y = A Z Y ∈ R n \text{Linearity} \\ Z \in \R^m \quad Z \sim N( \mu_Z,\Sigma_Z) \\ A \in \R^{n*m} \quad Y = AZ \quad Y \in \R^n LinearityZRmZN(μZ,ΣZ)ARnmY=AZYRn

  我们可以计算一下经过线性变换A之后,得到的Y是什么分布,我们从特征函数的角度来进行计算

ϕ Y ( ω ) = E ( e x p ( j ω T Y ) ) = E ( e x p ( j ω T A Z ) ) = E ( e x p ( j ( A T ω ) T Z ) ) = ϕ Z ( ω ′ ) ∣ ω ′ = A T ω = e x p ( j ω ′ T μ − 1 2 ω ′ T Σ ω ′ ) ∣ ω ′ = A T ω = e x p ( j ω T A μ − 1 2 ω T A Σ A T ω ) \phi_Y(\omega) = E(exp(j \omega^T Y)) = E(exp(j\omega^T AZ)) \\ =E(exp(j(A^T\omega)^TZ)) =\phi_Z(\omega')|_{\omega' = A^T \omega} \\ = exp(j\omega'^T \mu - \frac{1}{2} \omega'^T \Sigma \omega')|_{\omega' = A^T \omega} \\ = exp(j\omega^T A \mu -\frac{1}{2} \omega^T A \Sigma A^T \omega ) ϕY(ω)=E(exp(jωTY))=E(exp(jωTAZ))=E(exp(j(ATω)TZ))=ϕZ(ω)ω=ATω=exp(jωTμ21ωTΣω)ω=ATω=exp(jωTAμ21ωTAΣATω)

  得到的仍然是一个高斯分布,并且新的高斯分布的均值和协方差分别是

μ Y = A μ Z Σ Y = A Σ Z A T Y ∼ N ( A μ , A Σ Z A T ) \mu_Y = A \mu_Z \\ \Sigma_Y= A\Sigma_Z A^T\\ Y \sim N(A \mu,A\Sigma_Z A^T) μY=AμZΣY=AΣZATYN(Aμ,AΣZAT)

  可以说明高斯具有线性不变性

Linearity Invariance \text{Linearity Invariance} Linearity Invariance

3. 高斯边缘分布与联合分布

  接下来,我们探究一下高斯边缘分布和联合分布的关系。也就是探究这样一个问题,如果一个分布是联合高斯分布,从中任取一些随机变量得到的分布是否是高斯分布?如果每一个随机变量的分布都是高斯分布,把他们组合在一起是否是联合高斯分布?

3.1 从联合分布到边缘分布

  事实上,从联合高斯分布到边缘高斯分布是成立的,可以通过我们高斯线性不变性得到证明

Z = ( Z 1 , . . . , Z n ) T ∼ N Z ~ = ( Z n 1 , . . . , Z n k ) ( n 1 , . . . , n k ) ⊂ { 1 , . . . , n } Z = (Z_1,...,Z_n)^T \sim N \\ \widetilde {Z} = (Z_{n_1},...,Z_{n_k}) \\ (n_1,...,n_k) \subset \{ 1,...,n\} Z=(Z1,...,Zn)TNZ =(Zn1,...,Znk)(n1,...,nk){1,...,n}
  证明

( Z n 1 . . . . . . Z n k ) = A ∗ ( Z 1 . . . . . . Z n ) A = ( 0 . . . 1 . . . 0 1 0 . . . 0 0 . . . . . . . . . . . . . . . ) \begin{pmatrix} Z_{n_1} \\ ...\\ ...\\ Z_{n_k} \end{pmatrix} = A*\begin{pmatrix} Z_{1} \\ ...\\ ...\\ Z_{n} \end{pmatrix} \\ A = \begin{pmatrix} 0& ... &1&...&0 \\ 1& 0 & ...&0&0\\ ...&...&...&...&... \end{pmatrix} Zn1......Znk=AZ1......ZnA=01......0...1.........0...00...

  只要让第n1到第nk个随机变量所在的位置是1,其他位置为0即可。

3.2 从边缘分布到联合分布

  但是反过来不一定成立。如果Z1,…,Zn全部服从高斯分布,Z1,…,Zn的联合分布不一定是高斯分布。

Z 1 ∼ N , Z 2 ∼ N , . . . , Z n ∼ N ⇒ Z = ( Z 1 , . . . , Z n ) T ∼ N Z_1 \sim N,Z_2 \sim N ,...,Z_n \sim N \\ \cancel \Rightarrow Z = (Z_1,...,Z_n)^T \sim N Z1N,Z2N,...,ZnN Z=(Z1,...,Zn)TN

  我们可以构造一个函数f(x,y),这个函数的边缘分布是高斯,但是联合分布不是高斯。

  先写出高斯加一个扰动项的形式,也就是这个分布主体是高斯的,但是边缘有波动。

f ( x , y ) = 1 2 π e x p ( − x 2 + y 2 2 ) + g ( x , y ) f(x,y) = \frac{1}{2 \pi} exp(-\frac{x^2 + y^2}{2}) +g(x,y) f(x,y)=2π1exp(2x2+y2)+g(x,y)

  我们希望这个g(x,y)的边缘分布都是0,即

∫ − ∞ + ∞ g ( x , y ) d x = ∫ − ∞ + ∞ g ( x , y ) d y = 0 \int_{-\infty}^{+\infty} g(x,y) dx = \int_{-\infty}^{+\infty} g(x,y) dy = 0 +g(x,y)dx=+g(x,y)dy=0

  如果我们增加这样一项

g ( x , y ) = s i n x s i n y g(x,y) = sinx siny g(x,y)=sinxsiny

  有两个问题,概率密度函数不能是负的,这个函数会在(-1,1)b波动,有些地方比如是-1,而高斯的边缘很小,就会产生负值,不满足概率密度公式必须大于0的条件,需要修改一下这个函数

g ( x , y ) = 1 + s i n x s i n y g(x,y) = 1+ sinxsiny g(x,y)=1+sinxsiny

  因此,我们就可以得到一个例子

f ( x , y ) = 1 2 π e x p ( − x 2 + y 2 2 ) + ( 1 + s i n x s i n y ) f(x,y) = \frac{1}{2 \pi} exp(-\frac{x^2 + y^2}{2}) +(1+sinxsiny) f(x,y)=2π1exp(2x2+y2)+(1+sinxsiny)

  对x和对y的边缘分布都是高斯的,但是联合分布不是高斯分布。

3.3 联合高斯分布判据

  那么,什么样的判据才能推出联合高斯分布呢?

Joint Gaussian ⇒ Bounding Gaussian \text{Joint Gaussian} \Rightarrow \text{Bounding Gaussian} Joint GaussianBounding Gaussian

  我们要求,有一个确定性矢量,对Z的分量进行任意的加权求和,得到的都是一维的高斯分布,这样才能够认为Z是联合高斯分布

Z ∈ R n Z ∼ N ⇔ ∀ α ∈ R n α T Z ∼ N Z\in \R^n \\ Z \sim N \Leftrightarrow \forall \alpha \in \R^n \quad \alpha^T Z \sim N ZRnZNαRnαTZN

  从联合高斯到任意线性组合都是一维高斯的充分性证明就不需要了。

  我们证明必要性即可。

  用特征函数来进行证明。Z的特征函数如下

ϕ Z ( ω ) = E ( e x p ( j ω T Z ) ) \phi_Z(\omega) = E(exp(j \omega^T Z)) ϕZ(ω)=E(exp(jωTZ))

  根据判据,对Z任意的线性组合得到的都应该是一维的高斯分布。所以ωTZ就是高斯分布,我们可以把ωTZz作为随机变量,然后把式子看做是特征函数在ω为1时候的分布

ϕ Z ( ω ) = E ( e x p ( j ω T Z ) ) = ϕ ω T Z ( 1 ) = e x p ( j μ ω T Z ω ′ − 1 2 σ ω T z 2 ω ′ 2 ) ∣ ω ′ = 1 = e x p ( j μ ω T Z − 1 2 σ ω T z 2 ) \phi_Z(\omega) = E(exp(j \omega^T Z)) = \phi_{\omega^T Z}(1) \\ = exp(j\mu_{\omega^T Z} \omega' - \frac{1}{2} \sigma^2_{\omega^T z} \omega'^2)|_{\omega' = 1} \\ = exp(j \mu_{\omega^T Z} - \frac{1}{2} \sigma^2_{\omega^T z} ) ϕZ(ω)=E(exp(jωTZ))=ϕωTZ(1)=exp(jμωTZω21σωTz2ω2)ω=1=exp(jμωTZ21σωTz2)

  然后,我们要求新高斯分布的均值和方差。

μ ω T Z = E ( ω T Z ) = ω T E ( Z ) = ω T μ σ ω T Z 2 = E [ ( ω T Z − E ( ω T Z ) ) 2 ] = E ( ω T Z − ω T E ( Z ) ) 2 = ω T E ( ( Z − E ( Z ) ) ( Z − E ( Z ) ) T ) ω = ω T Σ ω \mu_{\omega^T Z} = E(\omega^T Z) = \omega^T E(Z) = \omega^T \mu \\ \sigma^2_{\omega^T Z} = E[(\omega^T Z - E(\omega^T Z))^2] \\ = E(\omega^T Z- \omega^T E(Z))^2 = \omega^TE((Z - E(Z))(Z-E(Z))^T) \omega = \omega^T \Sigma \omega μωTZ=E(ωTZ)=ωTE(Z)=ωTμσωTZ2=E[(ωTZE(ωTZ))2]=E(ωTZωTE(Z))2=ωTE((ZE(Z))(ZE(Z))T)ω=ωTΣω

  代入特征函数可得

ϕ Z ( ω ) = e x p ( j ω T μ − 1 2 ω T Σ ω ) \phi_Z(\omega) = exp(j \omega^T \mu - \frac{1}{2} \omega^T \Sigma \omega ) ϕZ(ω)=exp(jωTμ21ωTΣω)

  得到联合高斯分布的特征函数,可以证明结论。

  我们现在有了一个从边缘分布到联合高斯的一个判据,但是这个判据不好用,是理论上的,现在没有一个特别好的方法进行判断联合高斯性。

4. 高斯分布的相关性与独立性

4.1 独立性和相关性

  所谓两个随机变量不相关,就是两个随机变量的期望,等于其各自的期望的乘积

Uncorrelation E ( Z Y ) = E ( Z ) E ( Y a ) \text{Uncorrelation} \\ E(ZY) = E(Z)E(Ya) UncorrelationE(ZY)=E(Z)E(Ya)

  而两个随机变量独立,就是他们的联合分布等于各自概率密度的乘积

f Z Y ( z , y ) = f Z ( z ) f Y ( y ) f_{ZY}(z,y) = f_Z(z)f_Y(y) fZY(z,y)=fZ(z)fY(y)

  独立一定不相关,但是不相关不一定独立。独立是不相关的子集,要求更加高。

  我们可以举一个二者不独立,但是也不相关的例子

θ ∼ U ( 0 , 2 π ) Z = c o s ( θ ) Y = s i n ( θ ) \theta \sim U(0,2 \pi) \\ Z = cos(\theta) \quad Y = sin(\theta) θU(0,2π)Z=cos(θ)Y=sin(θ)

  这两个随机变量一定不独立

Z 2 + Y 2 = 1 Z^2 +Y^2 = 1 Z2+Y2=1

  但是也不相关

E ( Z ) = E ( c o s ( θ ) ) = ∫ 0 2 π 1 2 π c o s ( θ ) d θ = 0 E ( Y ) = E ( s i n ( θ ) ) = ∫ 0 2 π 1 2 π s i n ( θ ) d θ = 0 E ( Z Y ) = E ( s i n ( θ ) c o s ( θ ) ) = 1 2 E ( s i n ( 2 θ ) ) = 1 2 ∫ 0 2 π 1 2 π s i n ( 2 θ ) d θ = 0 ⇒ E ( Z Y ) = E ( Z ) E ( Y ) E(Z)=E(cos(\theta))=\int_{0}^{2\pi} \frac{1}{2\pi}cos(\theta) d\theta = 0 \\ E(Y)=E(sin(\theta))=\int_{0}^{2\pi} \frac{1}{2\pi}sin(\theta) d\theta = 0 \\ E(ZY) = E(sin(\theta)cos(\theta)) = \frac{1}{2} E(sin(2\theta)) = \frac{1}{2}\int_{0}^{2\pi} \frac{1}{2\pi}sin(2\theta) d\theta = 0 \\ \Rightarrow E(ZY) = E(Z)E(Y) E(Z)=E(cos(θ))=02π2π1cos(θ)dθ=0E(Y)=E(sin(θ))=02π2π1sin(θ)dθ=0E(ZY)=E(sin(θ)cos(θ))=21E(sin(2θ))=2102π2π1sin(2θ)dθ=0E(ZY)=E(Z)E(Y)

4.2 高斯分布的不相关和独立

  刚才证明了,两个随机变量不相关,不能得到二者独立。如果两个高斯分布是不相关的,能够得到二者独立吗?

  答案也是不行的。我们假设X服从高斯分布,而Z是一个伯努利分布,Y是二者的乘积。同时X和Z是独立的

X ∼ N ( 0 , 1 ) Z = { 1 P = 1 2 − 1 P = 1 2 X , Z independent Y = Z X X \sim N(0,1) \\ Z = \begin{cases} 1 &P = \frac{1}{2} \\ -1 &P = \frac{1}{2} \end{cases} \\ X,Z \quad \text{independent} \\ Y = ZX XN(0,1)Z={11P=21P=21X,ZindependentY=ZX

  我们可以看下Y是否是个高斯分布,用特征函数来进行推断

ϕ Y ( ω ) = E ( e x p ( j ω Y ) ) = E ( e x p ( j ω Z X ) ) = E Z ( E X ( e x p ( j ω Z X ) ∣ Z ) ) = E Z ( e x p ( − 1 2 ω 2 Z 2 ) ) = 1 2 e x p ( − 1 2 ω 2 ) + 1 2 e x p ( − 1 2 ω 2 ) = e x p ( − 1 2 ω 2 ) \phi_Y(\omega) =E( exp(j\omega Y)) =E (exp(j\omega ZX))\\ =E_Z(E_X (exp(j\omega ZX)|Z)) = E_Z(exp(-\frac{1}{2}\omega^2 Z^2)) \\ = \frac{1}{2}exp(-\frac{1}{2} \omega^2) + \frac{1}{2}exp(-\frac{1}{2} \omega^2) = exp(-\frac{1}{2} \omega^2) ϕY(ω)=E(exp(jωY))=E(exp(jωZX))=EZ(EX(exp(jωZX)Z))=EZ(exp(21ω2Z2))=21exp(21ω2)+21exp(21ω2)=exp(21ω2)

  我们发现Y仍然是个高斯分布

Y ∼ N ( 0 , 1 ) Y \sim N(0,1) YN(0,1)

  然后再计算一下二者的相关

E ( X Y ) = E ( Z X 2 ) = E ( Z ) E ( X 2 ) = 0 E ( X ) = E ( Y ) = 0 ⇒ E ( X Y ) = E ( X ) E ( Y ) = 0 E(XY) = E(ZX^2) = E(Z)E(X^2) = 0 \\ E(X)=E(Y)=0 \\ \Rightarrow E(XY) = E(X)E(Y)=0 E(XY)=E(ZX2)=E(Z)E(X2)=0E(X)=E(Y)=0E(XY)=E(X)E(Y)=0

  能够看出,两个高斯分布不相关,但是不是独立的。

4.3 联合高斯分布的不相关和独立

  既然两个随便的随机变量不相关得不得独立,两个高斯分布不相关得不得独立,什么条件下才能够通过不相关推导出独立呢?

  当两个随机变量是联合高斯分布的时候,二者如果不相关,则一定独立

{ Joint Gaussian Uncorrelated ⇒ independent \begin{cases} \text{Joint Gaussian} \\ \text{Uncorrelated} \end{cases} \Rightarrow \text{independent} {Joint GaussianUncorrelatedindependent

  我们可以证明一下

f X , Y ( x , y ) = 1 2 π σ x σ y 1 − ρ 2 e x p ( − 1 2 ( x − μ x y − μ y ) ( σ x 2 σ x y σ x y σ y 2 ) − 1 ( x − μ x y − μ y ) ) \quad f_{X,Y}(x,y) = \frac{1}{2 \pi\sigma_x \sigma_y \sqrt{1 - \rho^2}} exp(-\frac{1}{2}\begin{pmatrix} x - \mu_x & y - \mu_y \\ \end{pmatrix}\begin{pmatrix} \sigma_x^2 & \sigma_{xy} \\ \sigma_{xy} & \sigma_y^2 \end{pmatrix}^{-1}\begin{pmatrix} x - \mu_x \\ y - \mu_y \end{pmatrix}) \\ fX,Y(x,y)=2πσxσy1ρ2 1exp(21(xμxyμy)(σx2σxyσxyσy2)1(xμxyμy))

  如果x和y不相关,意味着x和y的互相关是0,并且相关系数ρ也是0

f X , Y ( x , y ) = 1 2 π σ x σ y e x p ( − 1 2 ( x − μ x y − μ y ) ( σ x 2 0 0 σ y 2 ) − 1 ( x − μ x y − μ y ) ) = 1 2 π σ x e x p ( − ( x − μ x ) 2 2 σ x 2 ) 1 2 π σ y e x p ( − ( y − μ y ) 2 2 σ y 2 ) = f X ( x ) f Y ( y ) \quad f_{X,Y}(x,y) = \frac{1}{2 \pi\sigma_x \sigma_y} exp(-\frac{1}{2}\begin{pmatrix} x - \mu_x & y - \mu_y \\ \end{pmatrix}\begin{pmatrix} \sigma_x^2 & 0 \\ 0 & \sigma_y^2 \end{pmatrix}^{-1} \begin{pmatrix} x - \mu_x \\ y - \mu_y \end{pmatrix}) \\ = \frac{1}{\sqrt{2\pi} \sigma_x} exp(-\frac{(x-\mu_x)^2}{2\sigma_x^2})\frac{1}{\sqrt{2\pi} \sigma_y} exp(-\frac{(y-\mu_y)^2}{2\sigma_y^2}) \\ = f_X(x) f_Y(y) fX,Y(x,y)=2πσxσy1exp(21(xμxyμy)(σx200σy2)1(xμxyμy))=2π σx1exp(2σx2(xμx)2)2π σy1exp(2σy2(yμy)2)=fX(x)fY(y)

  就能够证明,如果两个随机变量满足联合高斯分布,如果二者不相关,必然独立

  这里可以说一下PCA和ICA的区别,PCA得到的分量是不相关的,但是不是独立的。ICA得到的分量是独立的。如果我们处理的数据是高斯的,PCA和ICA是等价的

  类似的结论可以推广到n元高斯,如果彼此之间不相关,必然彼此之间是独立的。

Z = ( Z 1 , . . . , Z n ) T ∼ N E ( Z i Z j ) = E ( Z i ) E ( Z j ) ⇒ Σ = d i a g ⇒ ( Z 1 , . . . , Z n ) is independent Z =(Z_1,...,Z_n)^T \sim N \\ E(Z_iZ_j) = E(Z_i) E(Z_j) \Rightarrow \Sigma = diag \\ \Rightarrow (Z_1,...,Z_n) \text{is independent} Z=(Z1,...,Zn)TNE(ZiZj)=E(Zi)E(Zj)Σ=diag(Z1,...,Zn)is independent

  这个结论反之也成立。如果相互独立的n个随机变量,每个都符合高斯分布,则他们满足联合高斯分布

Z 1 , . . . , Z n  independent Z k ∼ N ⇒ Z = ( Z 1 , . . . , Z n ) ∼ N Z_1,...,Z_n \text{ independent} \\ Z_k \sim N \Rightarrow Z = (Z_1,...,Z_n) \sim N Z1,...,Zn independentZkNZ=(Z1,...,Zn)N

4.4 两个例子

4.4.1 利用独立性求条件概率

  第一个例子,如果Z和Y是独立的,并且都满足高斯分布,我们求一个条件期望

Z , Y  i.i.d ∼ N ( 0 , 1 ) ⇒ E ( ( Z − Y ) 2 ∣ Z + Y ) Z,Y \text{ i.i.d} \sim N(0,1) \Rightarrow E((Z-Y)^2 |Z+Y) Z,Y i.i.dN(0,1)E((ZY)2Z+Y)

  首先,如果Z和Y满足高斯分布,并且是独立的,他们一定满足联合高斯分布。

Step 1 Z , Y  i.i.d ∼ N ( 0 , 1 ) ( Z , Y ) T ∼ N ( ( 0 0 ) , ( 1 0 0 1 ) ) \text{Step 1} \\ Z,Y \text{ i.i.d} \sim N(0,1) \\ (Z,Y)^T \sim N( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} 1&0 \\ 0&1 \end{pmatrix} ) Step 1Z,Y i.i.dN(0,1)(Z,Y)TN((00),(1001))

  其次,然后他们的和差也是高斯分布,因为高斯的线性变换还是高斯

Step 2 ( Z − Y Z + Y ) = ( 1 − 1 1 1 ) ( Z Y ) = A ( Z Y ) \text{Step 2} \begin{pmatrix} Z-Y \\ Z+Y \end{pmatrix} = \begin{pmatrix} 1 & -1 \\ 1 & 1 \end{pmatrix} \begin{pmatrix} Z \\ Y \end{pmatrix} = A \begin{pmatrix} Z \\ Y \end{pmatrix} Step 2(ZYZ+Y)=(1111)(ZY)=A(ZY)

  然后我们计算一下新的联合高斯的均值和方差

Step 3 ( Z − Y Z + Y ) ∼ N ( A ( 0 0 ) , A T ( 1 0 0 1 ) A ) = ∼ N ( ( 0 0 ) , ( 2 0 0 2 ) ) \text{Step 3} \begin{pmatrix} Z-Y \\ Z+Y \end{pmatrix} \sim N( A\begin{pmatrix} 0 \\ 0 \end{pmatrix}, A^T\begin{pmatrix} 1&0 \\ 0&1 \end{pmatrix}A )\\ =\sim N( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} 2&0 \\ 0&2 \end{pmatrix} )\\ Step 3(ZYZ+Y)N(A(00),AT(1001)A)=N((00),(2002))

  我们发现得到的新联合高斯分布是不相关的,则必然Z-Y和Z+Y是独立的,然后我们要求的这个条件期望其实是与后面没有关系的。要求的就是Z-Y这个随机变量的方差,也就是2

Step 4 E ( ( Z − Y ) 2 ∣ Z + Y ) = E ( ( Z − Y ) 2 ) = 2 \text{Step 4} \\ E((Z-Y)^2 |Z+Y) = E((Z-Y)^2) = 2 Step 4E((ZY)2Z+Y)=E((ZY)2)=2

4.4.2 解释方差和样本方差的关系
(1) 问题描述

  我们知道,如果要估计一组采样数据,可以通过多次实验取平均的方法,这是因为取均值可以降低方差。这里多次实验要求彼此之间结果是不相关的。

{ Z 1 , . . . , Z n }  i.i.d ⇒ Z = 1 n ∑ k = 1 n Z k \{ Z_1,...,Z_n\} \text{ i.i.d} \\ \Rightarrow Z = \frac{1}{n} \sum_{k=1}^n Z_k \\ {Z1,...,Zn} i.i.dZ=n1k=1nZk

  求期望

E ( Z ) = E ( 1 n ∑ k = 1 n Z k ) = E ( Z 1 ) Z k = A + N k ⇒ E ( Z k ) = A E(Z) = E( \frac{1}{n} \sum_{k=1}^n Z_k) = E(Z_1) \\ Z_k = A +N_k \Rightarrow E(Z_k) = A \\ E(Z)=E(n1k=1nZk)=E(Z1)Zk=A+NkE(Zk)=A

  求方差,由于彼此不相关,交叉项为0

V a r ( Z ) = E ( ( Z − E ( Z ) ) 2 ) = E ( ( 1 n ∑ k = 1 n Z k − A ) 2 ) = 1 n 2 E ( ∑ k = 1 n Z k − n A ) 2 = 1 n 2 E ( ∑ k = 1 n ( Z k − A ) ) 2 = 1 n 2 E ( ∑ k = 1 n ( Z k − A ) 2 + ∑ i = j ( Z i − A ) ( Z j − A ) ) = 1 n 2 ∑ k = 1 n E ( ( Z k − A ) 2 ) + ∑ i = j E ( Z i − A ) ( Z j − A ) ) = 1 n 2 ∑ k = 1 n E ( ( Z k − A ) 2 ) = 1 n E ( ( Z k − A ) 2 ) = 1 n V a r ( Z 1 ) Var(Z) = E((Z - E(Z))^2) = E((\frac{1}{n} \sum_{k=1}^n Z_k - A)^2) \\ = \frac{1}{n^2} E(\sum_{k=1}^n Z_k - nA)^2 \\ = \frac{1}{n^2} E(\sum_{k=1}^n (Z_k - A))^2 \\ = \frac{1}{n^2} E(\sum_{k=1}^n (Z_k - A)^2 + \sum_{i \cancel=j}(Z_i - A)(Z_j - A) ) \\ = \frac{1}{n^2}\sum_{k=1}^n E((Z_k - A)^2) + \sum_{i \cancel=j} E(Z_i - A)(Z_j - A) ) \\ = \frac{1}{n^2}\sum_{k=1}^n E((Z_k - A)^2) = \frac{1}{n}E((Z_k - A)^2) = \frac{1}{n} Var(Z_1) Var(Z)=E((ZE(Z))2)=E((n1k=1nZkA)2)=n21E(k=1nZknA)2=n21E(k=1n(ZkA))2=n21E(k=1n(ZkA)2+i= j(ZiA)(ZjA))=n21k=1nE((ZkA)2)+i= jE(ZiA)(ZjA))=n21k=1nE((ZkA)2)=n1E((ZkA)2)=n1Var(Z1)

  但是,我们实际实验中,是得不得期望的,我们只能用实验数据平均值作为期望,然后用这个数据来求方差。这样得到的方差叫做样本方差

E ( Z − E Z ) 2 Sample Variance σ ^ 2 = 1 n − 1 ∑ k = 1 n ( Z k − 1 n ∑ k = 1 n Z k ) 2 E(Z-EZ)^2 \\ \text{Sample Variance} \\ \hat \sigma^2 = \frac{1}{n-1} \sum_{k=1}^n(Z_k - \frac{1}{n}\sum_{k=1}^n Z_k)^2 E(ZEZ)2Sample Varianceσ^2=n11k=1n(Zkn1k=1nZk)2
  只有样本方差前面是n-1,这个对方差的估计才是个无偏估计

E ( σ ^ 2 ) = V a r ( Z 1 ) E(\hat \sigma^2) = Var(Z_1) E(σ^2)=Var(Z1)

  有了样本方差之后,再来表示一下样本均值

S ^ = 1 n ∑ k = 1 n Z k \hat S = \frac{1}{n}\sum_{k=1}^n Z_k S^=n1k=1nZk

(2) 独立性

  这里我们想证明一个有趣的事情。如果我们所有的采样数据,不但是独立同分布的,而且还都是高斯分布,我们其实可以证明样本均值和样本方差之间是独立的。

  我们假设随机矢量Z

Z = ( Z 1 , . . . , Z n ) T Z = (Z_1,...,Z_n)^T Z=(Z1,...,Zn)T

  由于每个Zk都是独立的高斯分布,因此,随机矢量Z必定是联合高斯分布

Z ∼ N ( μ , σ 2 I ) Z \sim N( \mu,\sigma^2 I) ZN(μ,σ2I)

  并且,我们假设有一个正交矩阵U,正交矩阵的第一行我们定义全部是1/sqrt{n},其余的参数不做限定,只要能够构成正交矩阵即可

U = ( 1 n . . . 1 n ∗ ∗ ∗ ∗ ∗ ∗ ) U = \begin{pmatrix} \frac{1}{\sqrt{n}} & ...&\frac{1}{\sqrt{n}} \\ * & * &* \\ * & * &* \end{pmatrix} U=n 1...n 1

  则,我们定义经过Z经过线性变换U之后得到的新随机矢量为Y。新随机矢量的第一个参数就是sqrt{n}*样本均值。其余位置我们不在乎

Y = U Z = ( 1 n . . . 1 n ∗ ∗ ∗ ∗ ∗ ∗ ) ∗ ( Z 1 . . . Z n ) = ( 1 n Z 1 + . . . + 1 n Z n . . . ∗ ) = ( n S ^ . . . ∗ ) Y = UZ = \begin{pmatrix} \frac{1}{\sqrt{n}} & ...&\frac{1}{\sqrt{n}} \\ * & * &* \\ * & * &* \end{pmatrix}* \begin{pmatrix} Z_1 \\ ... \\ Z_n \end{pmatrix} \\ =\begin{pmatrix} \frac{1}{\sqrt{n}}Z_1 + ..._+ \frac{1}{\sqrt{n}}Z_n\\ ... \\ * \end{pmatrix} = \begin{pmatrix} \sqrt{n}\hat S\\ ... \\ * \end{pmatrix} Y=UZ=n 1...n 1Z1...Zn=n 1Z1+...+n 1Zn...=n S^...
  可得

Y 1 = 1 n Z 1 + . . . + 1 n Z n = n S ^ Y = { Y 1 , . . . , Y n } Y_1 = \frac{1}{\sqrt{n}}Z_1 + ..._+ \frac{1}{\sqrt{n}}Z_n = \sqrt{n}\hat S \\ Y = \{Y_1,...,Y_n\} Y1=n 1Z1+...+n 1Zn=n S^Y={Y1,...,Yn}

  由于Z是联合高斯,Y必然也是联合高斯的

Y ∼ N ( U T μ , U T σ 2 I U ) = N ( U T μ , σ 2 I ) Y \sim N( U^T \mu,U^T \sigma^2 I U) = N( U^T \mu, \sigma^2 I ) YN(UTμ,UTσ2IU)=N(UTμ,σ2I)

  然后我们表示一下样本方差

σ ^ 2 = 1 n − 1 ∑ k = 1 n ( Z k − 1 n ∑ k = 1 n Z k ) 2 = 1 n − 1 ∑ k = 1 n ( Z k − S ^ ) 2 = 1 n − 1 ( ∑ k = 1 n Z k 2 − 2 ∑ k = 1 n Z k S ^ + ∑ k = 1 n S ^ 2 ) \hat \sigma^2 = \frac{1}{n-1} \sum_{k=1}^n(Z_k - \frac{1}{n}\sum_{k=1}^n Z_k)^2 \\ = \frac{1}{n-1} \sum_{k=1}^n(Z_k - \hat S)^2 \\ = \frac{1}{n-1} (\sum_{k=1}^nZ_k^2 - 2\sum_{k=1}^n Z_k \hat S +\sum_{k=1}^n \hat S^2) \\ σ^2=n11k=1n(Zkn1k=1nZk)2=n11k=1n(ZkS^)2=n11(k=1nZk22k=1nZkS^+k=1nS^2)
  由于

S ^ = 1 n ∑ k = 1 n Z k \hat S = \frac{1}{n}\sum_{k=1}^n Z_k S^=n1k=1nZk

  可得

∑ k = 1 n Z k = n S ^ \sum_{k=1}^n Z_k = n\hat S k=1nZk=nS^
  代入可得

σ ^ 2 = 1 n − 1 ( ∑ k = 1 n Z k 2 − 2 n ∗ S ^ 2 + n S ^ 2 ) = 1 n − 1 ( ∑ k = 1 n Z k 2 − n ∗ S ^ 2 ) = 1 n − 1 ( Z T Z − n ∗ S ^ 2 ) = 1 n − 1 ( Z T Z − n ∗ S ^ 2 ) \hat \sigma^2= \frac{1}{n-1} (\sum_{k=1}^nZ_k^2 -2n*\hat S^2 + n \hat S^2) \\ = \frac{1}{n-1} (\sum_{k=1}^nZ_k^2 -n*\hat S^2 ) \\ = \frac{1}{n-1} (Z^TZ -n*\hat S^2 ) = \frac{1}{n-1} (Z^TZ -n*\hat S^2 ) σ^2=n11(k=1nZk22nS^2+nS^2)=n11(k=1nZk2nS^2)=n11(ZTZnS^2)=n11(ZTZnS^2)

  由于

Y T Y = Z T U T U Z = Z T Z Y^TY = Z^T U ^T UZ = Z^T Z YTY=ZTUTUZ=ZTZ

  代入可得

σ ^ 2 = 1 n − 1 ( Y T Y − n ∗ S ^ 2 ) = 1 n − 1 ( ∑ k = 1 n Y k 2 − n ∗ S ^ 2 ) \hat \sigma^2= \frac{1}{n-1} (Y^TY -n*\hat S^2 ) \\ = \frac{1}{n-1} (\sum_{k=1}^nY_k^2 - n *\hat S^2 ) σ^2=n11(YTYnS^2)=n11(k=1nYk2nS^2)

  由于我们前面构造的Y1满足这样的关系,所以我们可以把后面的东西减掉。

Y 1 2 = n ∗ S ^ 2 Y_1 ^2 = n *\hat S^2 Y12=nS^2

σ ^ 2 = 1 n − 1 ( ∑ k = 1 n Y k 2 − Y 1 2 ) = 1 n − 1 ∑ k = 2 n Y k 2 \hat \sigma^2 = \frac{1}{n-1} (\sum_{k=1}^nY_k^2 - Y_1^2 ) \\ = \frac{1}{n-1} \sum_{k=2}^nY_k^2 σ^2=n11(k=1nYk2Y12)=n11k=2nYk2

  由于,Y是相互独立的,并且样本方差和样本均值具有如下表示形式,因此能够证明样本方差和样本均值之间是独立的。
Sample Mean S ^ = n Y 1 Sample Variance σ ^ 2 = 1 n − 1 ∑ k = 2 n Y k 2 = 1 n − 1 ( Y 2 2 + . . . + Y n 2 ) \text{Sample Mean} \\ \hat S = \sqrt{n} Y_1 \\ \text{Sample Variance} \\ \hat \sigma^2 = \frac{1}{n-1} \sum_{k=2}^nY_k^2 = \frac{1}{n-1} (Y_2^2 +...+Y_n^2) Sample MeanS^=n Y1Sample Varianceσ^2=n11k=2nYk2=n11(Y22+...+Yn2)

  也能够证明,实际上方差只有n-1个自由度。这个结论非常有名,叫做Cochran Theorem。

Cochran Theorem \text{Cochran Theorem} Cochran Theorem

(3) 无偏估计

  然后,我们想来证明一下,为什么样本方差前面是n-1,这主要是因为,只有前面是n-1,才能保证样本方差是个无偏估计,样本方差和方差之间的期望相同,即

E ( σ ^ 2 ) = V a r ( Z ) E(\hat \sigma^2) = Var(Z) E(σ^2)=Var(Z)

  下面证明一下

σ ^ 2 = 1 n − 1 ∑ k = 1 n ( Z k − S ^ ) 2 E ( σ ^ 2 ) = 1 n − 1 E ( ∑ k = 1 n ( Z k − S ^ ) 2 ) = 1 n − 1 E ( ∑ k = 1 n Z k 2 − 2 ∑ k = 1 n S ^ Z k + ∑ k = 1 n S ^ 2 ) = 1 n − 1 E ( ∑ k = 1 n Z k 2 − 2 n S ^ 2 + n S ^ 2 ) = 1 n − 1 E ( ∑ k = 1 n Z k 2 − n S ^ 2 ) \hat \sigma^2 = \frac{1}{n-1} \sum_{k=1}^n (Z_k - \hat S)^2 \\ E(\hat \sigma^2) = \frac{1}{n-1} E(\sum_{k=1}^n (Z_k - \hat S)^2) \\ = \frac{1}{n-1}E (\sum_{k=1}^nZ_k^2 -2\sum_{k=1}^n\hat S Z_k+\sum_{k=1}^n\hat S^2) \\ = \frac{1}{n-1} E(\sum_{k=1}^n Z_k^2 - 2n \hat S^2 +n\hat S^2) \\ = \frac{1}{n-1} E(\sum_{k=1}^n Z_k^2 - n \hat S^2) σ^2=n11k=1n(ZkS^)2E(σ^2)=n11E(k=1n(ZkS^)2)=n11E(k=1nZk22k=1nS^Zk+k=1nS^2)=n11E(k=1nZk22nS^2+nS^2)=n11E(k=1nZk2nS^2)

  由于

S ^ 2 = 1 n 2 ( ∑ k = 1 n Z k 2 + ∑ i = j Z i Z j ) \hat S^2 = \frac{1}{n^2} (\sum_{k=1}^n Z_k^2 +\sum_{i \cancel = j}Z_i Z_j) S^2=n21(k=1nZk2+i= jZiZj)

  则

E ( σ ^ 2 ) = 1 n − 1 E ( ∑ k = 1 n Z k 2 − 1 n ( ∑ k = 1 n Z k 2 + ∑ i = j Z i Z j ) ) = 1 n − 1 ( ∑ k = 1 n E ( Z k 2 ) − 1 n ∑ k = 1 n E ( Z k 2 ) − 1 n ∑ i = j E ( Z i ) E ( Z j ) ) = 1 n − 1 ( n ∗ E ( Z 1 2 ) − 1 n n E ( Z 1 2 ) − 1 n n ∗ ( n − 1 ) E ( Z 1 ) E ( Z 1 ) ) = 1 n − 1 ( ( n − 1 ) E ( Z 1 2 ) − ( n − 1 ) E ( Z 1 ) 2 ) = E ( Z 1 2 ) − E ( Z 1 ) 2 ) = V a r ( Z 1 ) E(\hat \sigma^2) = \frac{1}{n-1} E(\sum_{k=1}^n Z_k^2 - \frac{1}{n}(\sum_{k=1}^n Z_k^2 +\sum_{i \cancel = j}Z_i Z_j)) \\ = \frac{1}{n-1} (\sum_{k=1}^n E(Z_k^2) - \frac{1}{n} \sum_{k=1}^n E(Z_k^2 ) - \frac{1}{n} \sum_{i \cancel = j} E(Z_i)E(Z_j)) \\ = \frac{1}{n-1}(n*E(Z_1^2) - \frac{1}{n} n E(Z_1^2) - \frac{1}{n} n*(n-1) E(Z_1) E(Z_1)) \\ = \frac{1}{n-1}((n-1)E(Z_1^2) - (n-1)E(Z_1)^2) \\ = E(Z_1^2) -E(Z_1)^2) = Var(Z_1) E(σ^2)=n11E(k=1nZk2n1(k=1nZk2+i= jZiZj))=n11(k=1nE(Zk2)n1k=1nE(Zk2)n1i= jE(Zi)E(Zj))=n11(nE(Z12)n1nE(Z12)n1n(n1)E(Z1)E(Z1))=n11((n1)E(Z12)(n1)E(Z1)2)=E(Z12)E(Z1)2)=Var(Z1)

  能够证明,只有除以n-1,才是对方差的无偏估计

5. 高斯条件分布

5.1 条件高斯分布的计算

Conditional Distribution \text{Conditional Distribution} Conditional Distribution

  假设Z符合联合高斯分布,并且可以分成Z1和Z2两个联合高斯分布,则Z可以表示为

Z = ( Z 1 , Z 2 ) T ∈ R m + n Z 1 ∈ R m Z 2 ∈ R n Z = (Z_1,Z_2)^T \in R^{m+n} \\ Z_1 \in R^m \\ Z_2 \in R^n Z=(Z1,Z2)TRm+nZ1RmZ2Rn

Z ∼ N ( ( μ 1 μ 2 ) , ( Σ 11 Σ 12 Σ 21 Σ 22 ) ) Z \sim N(\begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix},\begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}) ZN((μ1μ2),(Σ11Σ21Σ12Σ22))

  要求条件分布Z2|Z1,条件分布就是二者的联合分布,然后除以Z2的边缘分布

Z 2 ∣ Z 1 = f Z 2 ∣ Z 1 ( z 2 ∣ z 1 ) = f Z 1 Z 2 ( z 1 z 2 ) f Z 2 ( z 2 ) Z_2 | Z_1 = f_{Z_2 | Z_1} (z_2 | z_1) = \frac{f_{Z_1Z_2}(z_1z_2)}{f_{Z_2}(z_2)} Z2Z1=fZ2Z1(z2z1)=fZ2(z2)fZ1Z2(z1z2)

  由于联合高斯中取出来一部分还是高斯,所以上面是个高斯,下面还是个高斯,因此得到的结果就是,前面是个常数,然后知识里面有加减,最终得到的还是一个高斯分布

f Z 1 Z 2 ( z 1 z 2 ) f Z 2 ( z 2 ) = c 1 e x p ( − 1 2 ( z 1 T − μ 1 T , z 2 T − μ 2 T ) Σ − 1 ( z 1 − μ 1 , z 2 − μ 2 ) ) c 2 e x p ( − 1 2 ( z 2 T − μ 2 T ) Σ 22 − 1 ( z 2 − μ 2 ) ) \frac{f_{Z_1Z_2}(z_1z_2)}{f_{Z_2}(z_2)} = \frac{c_1 exp(-\frac{1}{2}(z_1^T-\mu_1^T,z_2^T - \mu_2^T) \Sigma^{-1}(z_1-\mu_1,z_2 - \mu_2))}{c_2 exp(-\frac{1}{2}(z_2 ^T - \mu_2^T) \Sigma_{22}^{-1} (z_2-\mu_2) )} fZ2(z2)fZ1Z2(z1z2)=c2exp(21(z2Tμ2T)Σ221(z2μ2))c1exp(21(z1Tμ1T,z2Tμ2T)Σ1(z1μ1,z2μ2))

  其中

Σ = ( Σ 11 Σ 12 Σ 21 Σ 22 ) \Sigma = \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix} Σ=(Σ11Σ21Σ12Σ22)

  指数相除可以转化为加减,我们只表示指数即可

− 1 2 ( z 1 T − μ 1 T , z 2 T − μ 2 T ) Σ − 1 ( z 1 − μ 1 , z 2 − μ 2 ) + 1 2 ( z 2 T − μ 2 T ) Σ 22 − 1 ( z 2 − μ 2 ) -\frac{1}{2}(z_1^T-\mu_1^T,z_2^T-\mu_2^T) \Sigma^{-1}(z_1-\mu_1,z_2-\mu_2) + \frac{1}{2}(z_2 ^T - \mu_2^T) \Sigma_{22}^{-1} (z_2-\mu_2) \\ 21(z1Tμ1T,z2Tμ2T)Σ1(z1μ1,z2μ2)+21(z2Tμ2T)Σ221(z2μ2)

  首先,我们要处理逆矩阵,把这个逆矩阵对角化,但是不是用特征分解的方法,先用行变换去掉右上角的数,然后用列变换去掉左下角的数即可

( I − Σ 12 Σ 22 − 1 0 I ) ∗ ( Σ 11 Σ 12 Σ 21 Σ 22 ) ∗ ( I 0 − Σ 22 − 1 Σ 21 I ) = ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 0 0 Σ 22 ) \begin{pmatrix} I & -\Sigma_{12}\Sigma_{22}^{-1} \\ 0 & I \end{pmatrix}* \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}* \begin{pmatrix} I & 0 \\ -\Sigma_{22}^{-1}\Sigma_{21} & I \end{pmatrix} \\ = \begin{pmatrix} \Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} & 0 \\ 0 & \Sigma_{22} \end{pmatrix} (I0Σ12Σ221I)(Σ11Σ21Σ12Σ22)(IΣ221Σ210I)=(Σ11Σ12Σ221Σ2100Σ22)

  移相

( Σ 11 Σ 12 Σ 21 Σ 22 ) = ( I − Σ 12 Σ 22 − 1 0 I ) − 1 ∗ ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 0 0 Σ 22 ) ∗ ( I 0 − Σ 22 − 1 Σ 21 I ) − 1 \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix} = \begin{pmatrix} I & -\Sigma_{12}\Sigma_{22}^{-1} \\ 0 & I \end{pmatrix}^{-1} *\begin{pmatrix} \Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} & 0 \\ 0 & \Sigma_{22} \end{pmatrix}* \begin{pmatrix} I & 0 \\ -\Sigma_{22}^{-1}\Sigma_{21} & I \end{pmatrix}^{-1} (Σ11Σ21Σ12Σ22)=(I0Σ12Σ221I)1(Σ11Σ12Σ221Σ2100Σ22)(IΣ221Σ210I)1

  求逆

( Σ 11 Σ 12 Σ 21 Σ 22 ) − 1 = ( I 0 − Σ 22 − 1 Σ 21 I ) ∗ ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 0 0 Σ 22 ) − 1 ∗ ( I − Σ 12 Σ 22 − 1 0 I ) = ( I 0 − Σ 22 − 1 Σ 21 I ) ∗ ( ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 0 0 Σ 22 − 1 ) ∗ ( I − Σ 12 Σ 22 − 1 0 I ) \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}^{-1} = \begin{pmatrix} I & 0 \\ -\Sigma_{22}^{-1}\Sigma_{21} & I \end{pmatrix}* \begin{pmatrix} \Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} & 0 \\ 0 & \Sigma_{22} \end{pmatrix}^{-1} * \begin{pmatrix} I & -\Sigma_{12}\Sigma_{22}^{-1} \\ 0 & I \end{pmatrix} \\ = \begin{pmatrix} I & 0 \\ -\Sigma_{22}^{-1}\Sigma_{21} & I \end{pmatrix}* \begin{pmatrix} (\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})^{-1} & 0 \\ 0 & \Sigma_{22}^{-1} \end{pmatrix} * \begin{pmatrix} I & -\Sigma_{12}\Sigma_{22}^{-1} \\ 0 & I \end{pmatrix} (Σ11Σ21Σ12Σ22)1=(IΣ221Σ210I)(Σ11Σ12Σ221Σ2100Σ22)1(I0Σ12Σ221I)=(IΣ221Σ210I)((Σ11Σ12Σ221Σ21)100Σ221)(I0Σ12Σ221I)

  求联合分布的二次型

− 1 2 ( z 1 T − μ 1 T , z 2 T − μ 2 T ) Σ − 1 ( z 1 − μ 1 , z 2 − μ 2 ) = − 1 2 ( z 1 T − μ 1 T , z 2 T − μ 2 T ) ( I 0 − Σ 22 − 1 Σ 21 I ) ∗ ( ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 0 0 Σ 22 − 1 ) ∗ ( I − Σ 12 Σ 22 − 1 0 I ) ( z 1 − μ 1 , z 2 − μ 2 ) = − 1 2 ( ( z 1 T − μ 1 T ) − ( z 2 T − μ 2 T ) Σ 22 − 1 Σ 21 , z 2 T − μ 2 T ) ∗ ( ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 0 0 Σ 22 − 1 ) ∗ ( ( z 1 − μ 1 ) − Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) , z 2 − μ 2 ) = − 1 2 [ ( z 2 T − μ 2 T ) Σ 22 − 1 ( z 2 − μ 2 ) + ( ( z 1 T − μ 1 T ) − ( z 2 T − μ 2 T ) Σ 22 − 1 Σ 21 ) ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 ( ( z 1 − μ 1 ) − Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) ) ] -\frac{1}{2}(z_1^T-\mu_1^T,z_2^T-\mu_2^T) \Sigma^{-1}(z_1-\mu_1,z_2-\mu_2) \\ = -\frac{1}{2}(z_1^T-\mu_1^T,z_2^T-\mu_2^T) \begin{pmatrix} I & 0 \\ -\Sigma_{22}^{-1}\Sigma_{21} & I \end{pmatrix}* \\ \begin{pmatrix} (\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})^{-1} & 0 \\ 0 & \Sigma_{22}^{-1} \end{pmatrix}* \\ \begin{pmatrix} I & -\Sigma_{12}\Sigma_{22}^{-1} \\ 0 & I \end{pmatrix}(z_1-\mu_1,z_2-\mu_2) \\ = -\frac{1}{2} \begin{pmatrix} (z_1^T-\mu_1^T)- (z_2^T-\mu_2^T)\Sigma_{22}^{-1}\Sigma_{21},z_2^T-\mu_2^T \\ \end{pmatrix} \\*\begin{pmatrix} (\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})^{-1} & 0 \\ 0 & \Sigma_{22}^{-1} \end{pmatrix}* \\ ((z_1-\mu_1)-\Sigma_{12}\Sigma_{22}^{-1}(z_2-\mu_2),z_2 - \mu_2) \\ = -\frac{1}{2}[(z_2^T-\mu_2^T) \Sigma_{22}^{-1}(z_2 - \mu_2)+ \\ ((z_1^T-\mu_1^T)- (z_2^T-\mu_2^T)\Sigma_{22}^{-1}\Sigma_{21}) (\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})^{-1}((z_1-\mu_1)-\Sigma_{12}\Sigma_{22}^{-1}(z_2-\mu_2))] 21(z1Tμ1T,z2Tμ2T)Σ1(z1μ1,z2μ2)=21(z1Tμ1T,z2Tμ2T)(IΣ221Σ210I)((Σ11Σ12Σ221Σ21)100Σ221)(I0Σ12Σ221I)(z1μ1,z2μ2)=21((z1Tμ1T)(z2Tμ2T)Σ221Σ21,z2Tμ2T)((Σ11Σ12Σ221Σ21)100Σ221)((z1μ1)Σ12Σ221(z2μ2),z2μ2)=21[(z2Tμ2T)Σ221(z2μ2)+((z1Tμ1T)(z2Tμ2T)Σ221Σ21)(Σ11Σ12Σ221Σ21)1((z1μ1)Σ12Σ221(z2μ2))]

  我们发现得到的联合分布的二次型能与后面边缘分布的二次型抵消一部分
− 1 2 ( z 1 T − μ 1 T , z 2 T − μ 2 T ) Σ − 1 ( z 1 − μ 1 , z 2 − μ 2 ) + 1 2 ( z 2 T − μ 2 T ) Σ 22 − 1 ( z 2 − μ 2 ) = 1 2 ( z 2 T − μ 2 T ) Σ 22 − 1 ( z 2 − μ 2 ) − 1 2 [ ( z 2 T − μ 2 T ) Σ 22 − 1 ( z 2 − μ 2 ) + ( ( z 1 T − μ 1 T ) − ( z 2 T − μ 2 T ) Σ 22 − 1 Σ 21 ) ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 ( ( z 1 − μ 1 ) − Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) ) ] = − 1 2 [ ( ( z 1 T − μ 1 T ) − ( z 2 T − μ 2 T ) Σ 22 − 1 Σ 21 ) ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 ( ( z 1 − μ 1 ) − Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) ) ] = − 1 2 [ ( z 1 T − ( μ 1 T + ( z 2 T − μ 2 T ) Σ 22 − 1 Σ 21 ) ) ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 ( z 1 − ( μ 1 + Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) ) ) ] = ( z 1 − μ 1 ∣ 2 ) T Σ 1 ∣ 2 ( z 1 − μ 1 ∣ 2 ) -\frac{1}{2}(z_1^T-\mu_1^T,z_2^T-\mu_2^T) \Sigma^{-1}(z_1-\mu_1,z_2-\mu_2) + \frac{1}{2}(z_2 ^T - \mu_2^T) \Sigma_{22}^{-1} (z_2-\mu_2) \\ = \frac{1}{2}(z_2 ^T - \mu_2^T) \Sigma_{22}^{-1} (z_2-\mu_2)-\frac{1}{2}[(z_2^T-\mu_2^T) \Sigma_{22}^{-1}(z_2 - \mu_2)+ \\ ((z_1^T-\mu_1^T)- (z_2^T-\mu_2^T)\Sigma_{22}^{-1}\Sigma_{21}) (\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})^{-1}((z_1-\mu_1)-\Sigma_{12}\Sigma_{22}^{-1}(z_2-\mu_2))] \\ = -\frac{1}{2}[((z_1^T-\mu_1^T)- (z_2^T-\mu_2^T)\Sigma_{22}^{-1}\Sigma_{21}) (\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})^{-1}((z_1-\mu_1)-\Sigma_{12}\Sigma_{22}^{-1}(z_2-\mu_2))] \\ = -\frac{1}{2}[(z_1^T-(\mu_1^T+ (z_2^T-\mu_2^T)\Sigma_{22}^{-1}\Sigma_{21})) (\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})^{-1}(z_1-(\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(z_2-\mu_2)))] = (z_1-\mu_{1|2})^T \Sigma_{1|2}(z_1-\mu_{1|2}) 21(z1Tμ1T,z2Tμ2T)Σ1(z1μ1,z2μ2)+21(z2Tμ2T)Σ221(z2μ2)=21(z2Tμ2T)Σ221(z2μ2)21[(z2Tμ2T)Σ221(z2μ2)+((z1Tμ1T)(z2Tμ2T)Σ221Σ21)(Σ11Σ12Σ221Σ21)1((z1μ1)Σ12Σ221(z2μ2))]=21[((z1Tμ1T)(z2Tμ2T)Σ221Σ21)(Σ11Σ12Σ221Σ21)1((z1μ1)Σ12Σ221(z2μ2))]=21[(z1T(μ1T+(z2Tμ2T)Σ221Σ21))(Σ11Σ12Σ221Σ21)1(z1(μ1+Σ12Σ221(z2μ2)))]=(z1μ12)TΣ12(z1μ12)

  这个式子可以表示为新的高斯分布,并且我们可以表示一下条件高斯分布中的条件期望和条件方差

μ 1 ∣ 2 = μ 1 + Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) Σ 1 ∣ 2 = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 \mu_{1|2} = \mu_1+\Sigma_{12}\Sigma_{22}^{-1}(z_2-\mu_2) \\ \Sigma_{1|2} = \Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} μ12=μ1+Σ12Σ221(z2μ2)Σ12=Σ11Σ12Σ221Σ21

5.2 条件期望与最优估计

5.2.1 高斯条件分布得到的条件期望的意义

  我们可以看我们上面得到的条件均值μ1|2,这里面,相当于,我们本来1和2的信息都不知道,现在了解到了2的信息,我们就可以基于2的信息对1的均值进行适当的调整。

μ 1 ∣ 2 = μ 1 + Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) \mu_{1|2} = \mu_1+\Sigma_{12}\Sigma_{22}^{-1}(z_2-\mu_2) \\ μ12=μ1+Σ12Σ221(z2μ2)

  后面部分其实是一个投影,随机矢量1向随机矢量2上的投影,因为1的信息不知道,但是我们知道2的信息,通过把未知的随机矢量往已知的上面靠,能够更好的利用已知信息修正未知量。

Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) \Sigma_{12}\Sigma_{22}^{-1}(z_2-\mu_2) Σ12Σ221(z2μ2)

5.2.2 随机变量的最优线性估计

  我们可以看,利用一个随机变量去估计另外一个随机变量会得到什么。我们采用线性估计的方法,用y去估计x

x , y r . v . E ( x ) = E ( y ) = 0 Let  x = α y m i n E ( x − α y ) 2 x,y \quad r.v. \\ E(x) = E(y) = 0\\ \text{Let }x = \alpha y \\ min E(x-\alpha y)^2 \\ x,yr.v.E(x)=E(y)=0Let x=αyminE(xαy)2

  来算一下这个目标函数

f ( α ) = E ( x − α y ) 2 = E ( x 2 − 2 α x y + α 2 y 2 ) = E ( x 2 ) − 2 α E ( x y ) + α 2 E ( y 2 ) d f d α = − 2 E ( x y ) + 2 α E ( y 2 ) = 0 α = E ( x y ) E ( y 2 ) f(\alpha)=E(x-\alpha y)^2 = E(x^2 - 2 \alpha xy + \alpha^2 y^2) \\ = E(x^2) - 2\alpha E(xy) + \alpha^2 E(y^2) \\ \frac{df}{d \alpha} = -2 E(xy) + 2\alpha E(y^2) = 0 \\ \alpha = \frac{E(xy)}{E(y^2)} f(α)=E(xαy)2=E(x22αxy+α2y2)=E(x2)2αE(xy)+α2E(y2)dαdf=2E(xy)+2αE(y2)=0α=E(y2)E(xy)

  我们可以发现,x在y上的投影,就是y对x的最优线性估计。

  如果我们的随机变量是满足高斯分布的,那么最优的线性估计就是最优估计。因为能够达到卡拉美罗下界。

5.2.3 随机变量的最优估计

  但是对于一般的随机变量,y对x的最优估计,是条件期望 E(x|y)

  我们也来定义均方意义下的最优估计模型

m i n E ( x − g ( y ) ) 2 g o p t ( y ) = E ( x ∣ y ) E ( x − E ( x ∣ y ) + E ( x ∣ y ) − g ( y ) ) 2 = E ( ( x − E ( x ∣ y ) ) 2 + ( E ( x ∣ y ) − g ( y ) ) 2 + ( x − E ( x ∣ y ) ) ( E ( x ∣ y ) − g ( y ) ) ) = E ( ( x − E ( x ∣ y ) ) 2 ) + E ( ( E ( x ∣ y ) − g ( y ) ) 2 ) + E ( ( x − E ( x ∣ y ) ) ( E ( x ∣ y ) − g ( y ) ) ) min E(x - g(y))^2 \\ g_{opt}(y) = E(x|y) \\ E(x-E(x|y) + E(x|y) -g(y))^2 \\ = E((x-E(x|y))^2 + (E(x|y) -g(y))^2 + (x-E(x|y))(E(x|y) - g(y)) ) \\ = E((x-E(x|y))^2) + E((E(x|y) -g(y))^2) + E((x-E(x|y))(E(x|y) - g(y))) minE(xg(y))2gopt(y)=E(xy)E(xE(xy)+E(xy)g(y))2=E((xE(xy))2+(E(xy)g(y))2+(xE(xy))(E(xy)g(y)))=E((xE(xy))2)+E((E(xy)g(y))2)+E((xE(xy))(E(xy)g(y)))

  我们证明一下交叉项为0

E ( ( x − E ( x ∣ y ) ) ( E ( x ∣ y ) − g ( y ) ) ) = E y E x [ ( ( x − E ( x ∣ y ) ) ( E ( x ∣ y ) − g ( y ) ) ) ∣ y ] = E y ( ( E ( x ∣ y ) − g ( y ) ) E x ( x − E ( x ∣ y ) ) ∣ y ) = E y ( ( E ( x ∣ y ) − g ( y ) ) ( E ( x ∣ y ) − E ( x ∣ y ) ) ) = 0 E((x-E(x|y))(E(x|y) - g(y))) \\ = E_y E_x[((x-E(x|y))(E(x|y) - g(y)))|y] \\ = E_y ((E(x|y) - g(y) ) E_x(x-E(x|y))|y) \\ = E_y((E(x|y) - g(y) )(E(x|y)-E(x|y))) = 0 E((xE(xy))(E(xy)g(y)))=EyEx[((xE(xy))(E(xy)g(y)))y]=Ey((E(xy)g(y))Ex(xE(xy))y)=Ey((E(xy)g(y))(E(xy)E(xy)))=0

  所以目标函数变成了

E ( x − g ( y ) ) 2 = E ( ( x − E ( x ∣ y ) ) 2 ) + E ( ( E ( x ∣ y ) − g ( y ) ) 2 ) E(x - g(y))^2 = E((x-E(x|y))^2) + E((E(x|y) -g(y))^2) E(xg(y))2=E((xE(xy))2)+E((E(xy)g(y))2)

  这是两个平方和的期望,如果希望最小,必定有

g o p t ( y ) = E ( x ∣ y ) g_{opt}(y) = E(x|y) gopt(y)=E(xy)

  因此,我们知道了,一般的随机变量的最优估计,是条件期望。如果是用y估计x就是E(x|y)

5.2.4 条件高斯分布的条件方差

  我们再来看一下这个条件方差

Σ 1 ∣ 2 = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 \Sigma_{1|2} = \Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} Σ12=Σ11Σ12Σ221Σ21

  因为协方差都是大于0的,因此这个条件方差必然比z1的方差会小。因为条件期望,使得某些部分得到了确定,随机性就变小了,方差也就小了

  并且这个条件方差必然大于0。不仅仅是从定义角度来看成立。而且也是一个柯西不等式

σ 11 ≥ σ 12 2 σ 22 ⇒ σ 12 2 ≤ σ 11 σ 22 ⇒ ∣ < x , y > ∣ 2 ≤ < x , x > < y , y > \sigma_{11} \geq \frac{\sigma_{12}^2}{\sigma_{22}} \\ \Rightarrow \sigma_{12}^2 \leq \sigma_{11} \sigma_{22} \\ \Rightarrow|<x,y>|^2 \leq <x,x> <y,y> σ11σ22σ122σ122σ11σ22<x,y>2<x,x><y,y>

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值