PRML推导(1) - 高斯分布中的两个小问题

本文深入探讨了一元高斯分布的方差计算,通过换元法证明了方差等于σ²。接着,详细阐述了多元高斯分布的条件分布,展示了如何在已知一部分变量的情况下,计算剩余变量的条件概率分布,揭示了条件概率分布也是一个高斯分布,并给出了均值和协方差的表达式。
摘要由CSDN通过智能技术生成

一元高斯分布的方差

考虑一元实值变量 x x x , 其高斯分布有如下定义:
N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 2 exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } (1.1) \mathcal{N}\left( x|\mu ,\sigma ^2 \right) =\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( x-\mu \right) ^2 \right\} \tag{1.1} N(xμ,σ2)=(2πσ2)211exp{2σ21(xμ)2}(1.1)

对于变量 x x x,其方差为: v a r [ x ] = E [ x 2 ] − E [ x ] 2 var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^{2} var[x]=E[x2]E[x]2,前一项即为 x x x 的二阶原始矩:
E [ x 2 ] = ∫ − ∞ ∞ x 2 N ( x ∣ μ , σ 2 ) d x = ∫ − ∞ ∞ x 2 1 ( 2 π σ 2 ) 1 2 exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } d x (1.2) \mathbb{E}\left[ x^2 \right] =\int_{-\infty}^{\infty}{x^2\mathcal{N}\left( x|\mu ,\sigma ^2 \right) dx}=\int_{-\infty}^{\infty}{x^2\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( x-\mu \right) ^2 \right\} dx} \tag{1.2} E[x2]=x2N(xμ,σ2)dx=x2(2πσ2)211exp{2σ21(xμ)2}dx(1.2)

采用换元法,令 t = x − μ t=x-\mu t=xμ ,即:
E [ x 2 ] = ∫ − ∞ ∞ ( t + μ ) 2 1 ( 2 π σ 2 ) 1 2 exp ⁡ { − 1 2 σ 2 t 2 } d ( t + μ ) = ∫ − ∞ ∞ ( t 2 + 2 t μ + μ 2 ) 1 ( 2 π σ 2 ) 1 2 exp ⁡ { − 1 2 σ 2 t 2 } d t = ∫ − ∞ ∞ t 2 1 ( 2 π σ 2 ) 1 2 exp ⁡ { − 1 2 σ 2 t 2 } d t + μ ∫ − ∞ ∞ t 1 ( 2 π σ 2 ) 1 2 exp ⁡ { − 1 2 σ 2 t 2 } d t + μ 2 ∫ − ∞ ∞ 1 ( 2 π σ 2 ) 1 2 exp ⁡ { − 1 2 σ 2 t 2 } d t ( 1.3 ) \begin{aligned} \mathbb{E}\left[ x^2 \right]&=\int_{-\infty}^{\infty}{\left( t+\mu \right) ^2\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} d\left( t+\mu \right)}\\ &=\int_{-\infty}^{\infty}{\left( t^2+2t\mu +\mu ^2 \right) \frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} dt}\\ &=\int_{-\infty}^{\infty}{t^2\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} dt}+\mu \int_{-\infty}^{\infty}{t\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} dt}+\mu ^2\int_{-\infty}^{\infty}{\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} dt}\\ \end{aligned} (1.3) E[x2]=(t+μ)2(2πσ2)211exp{2σ21t2}d(t+μ)=(t2+2tμ+μ2)(2πσ2)211exp{2σ21t2}dt=t2(2πσ2)211exp{2σ21t2}dt+μt(2πσ2)211exp{2σ21t2}dt+μ2(2πσ2)211exp{2σ21t2}dt(1.3)
其中第二项中 t N ( t ∣ 0 , σ 2 ) t\mathcal{N}\left( t|0 ,\sigma ^2 \right) tN(t0,σ2) 为奇函数,即积分为0;第三项 N ( t ∣ 0 , σ 2 ) \mathcal{N}\left( t|0 ,\sigma ^2 \right) N(t0,σ2)积分为1,第三项值为 μ 2 \mu^2 μ2;对于第一项,为了更直观的表示,依次采用两次换元法,令 t = 2 σ m t=\sqrt{2}\sigma m t=2 σm 以及 y = m 2 y=m^2 y=m2,则:
∫ − ∞ ∞ t 2 1 ( 2 π σ 2 ) 1 2 exp ⁡ { − 1 2 σ 2 t 2 } d t = ∫ − ∞ ∞ ( 2 σ m ) 2 1 ( 2 π σ 2 ) 1 2 exp ⁡ { − 1 2 σ 2 ( 2 σ m ) 2 } d ( 2 σ m ) = ∫ − ∞ ∞ 2 σ 2 π m 2 e − m 2 d m = ∫ − ∞ ∞ 2 σ 2 π y e − y d y = 2 ∫ 0 ∞ σ 2 π y 3 2 − 1 e − y d y = 2 σ 2 π Γ ( 3 2 ) = σ 2 π Γ ( 1 2 ) = σ 2 ( 1.4 ) \begin{aligned} \int_{-\infty}^{\infty}{t^2\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} dt}&=\int_{-\infty}^{\infty}{\left( \sqrt{2}\sigma m \right) ^2\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( \sqrt{2}\sigma m \right) ^2 \right\} d\left( \sqrt{2}\sigma m \right)}\\ &=\int_{-\infty}^{\infty}{\frac{2\sigma ^2}{\sqrt{\pi}}m^2e^{-m^2}dm}\\ &=\int_{-\infty}^{\infty}{\frac{2\sigma ^2}{\sqrt{\pi}}ye^{-y}d\sqrt{y}}\\ &=2\int_0^{\infty}{\begin{array}{c} \begin{array}{c} \frac{\sigma ^2}{\sqrt{\pi}}y^{\frac{3}{2}-1}e^{-y}dy\\ \end{array}\\ \end{array}}\\ &=\frac{2\sigma ^2}{\sqrt{\pi}}\Gamma \left( \frac{3}{2} \right) =\frac{\sigma ^2}{\sqrt{\pi}}\Gamma \left( \frac{1}{2} \right) =\sigma ^2\\ \end{aligned} (1.4) t2(2πσ2)211exp{2σ21t2}dt=(2 σm)2(2πσ2)211exp{2σ21(2 σm)2}d(2 σm)=π 2σ2m2em2dm=π 2σ2yeydy =20π σ2y231eydy=π 2σ2Γ(23)=π σ2Γ(21)=σ2(1.4)

则方差 v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^{2}={\sigma}^{2} var[x]=E[x2]E[x]2=σ2

补充知识:

  1. 矩(moment)是对变量分布和形态特点的度量, n n n阶矩是指变量的n次方与其概率密度函数的乘积的积分,在文献中 n n n阶矩通常用符号 μ n \mu_{n} μn表示,直接使用变量计算的矩被称为原始矩(raw moment),移除均值后计算的矩被称为中心矩(central moment)。变量的一阶原始矩等价于数学期望,二至四阶中心矩被定义为方差,偏度和峰度。
    u n ′ = ∫ x n P ( x ) d x (1.5) u_{n}^{\prime}=\int{x^n}P\left( x \right) dx \tag{1.5} un=xnP(x)dx(1.5)

  2. Γ \Gamma Γ 函数定义为 Γ ( x ) = ∫ 0 ∞ u x − 1 e − x d x \Gamma \left( x \right) =\int_0^{\infty}{u^{x-1}e^{-x}dx} Γ(x)=0ux1exdx,其具有两点重要性质:

    • Γ ( x + 1 ) = x Γ ( x ) \Gamma(x+1)=x\Gamma(x) Γ(x+1)=xΓ(x)
    • Γ ( 1 2 ) = π \Gamma(\frac{1}{2})=\sqrt{\pi} Γ(21)=π (可采用二重积分+夹逼定理求其平方值进行证明)

多元高斯分布的条件分布

假设 x \boldsymbol{x} x 是一个服从高斯分布 N ( x ∣ μ , Σ ) \mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma}) N(xμ,Σ) D D D维向量,把 x \boldsymbol{x} x划分为不相交的子集 x a , x b \boldsymbol{x_a},\boldsymbol{x_b} xa,xb ,有

x = ( x a x b ) \boldsymbol{x}=\left( \begin{array}{c} \boldsymbol{x}_a\\ \boldsymbol{x}_b\\ \end{array} \right) x=(xaxb)

μ = ( μ a μ b ) \boldsymbol{\mu}=\left( \begin{array}{c} \boldsymbol{\mu}_a\\ \boldsymbol{\mu}_b\\ \end{array} \right) μ=(μaμb)

Σ = ( Σ a a Σ a b Σ b a Σ b b ) \mathbf{\Sigma }=\left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) Σ=(ΣaaΣbaΣabΣbb)

其中 Σ T = Σ \mathbf{\Sigma}^{T}=\mathbf{\Sigma} ΣT=Σ,则 Σ b a T = Σ a b \mathbf{\Sigma}_{ba}^{T}=\mathbf{\Sigma}_{ab} ΣbaT=Σab,同时可以使用精度矩阵方便表达: Λ ≡ Σ − 1 \mathbf{\Lambda } \equiv \mathbf{\Sigma}^{-1} ΛΣ1
为了求条件分布函数 p ( x a ∣ x b ) p(\boldsymbol{x}_{a}|\boldsymbol{x}_{b}) p(xaxb),考虑概率的乘积问题,即 p ( x a ∣ x b ) = p ( x a , x b ) p ( x b ) p(\boldsymbol{x}_{a}|\boldsymbol{x}_{b})=\frac{p(\boldsymbol{x}_{a}, \boldsymbol{x}_{b})}{p(\boldsymbol{x}_{b})} p(xaxb)=p(xb)p(xa,xb)
为了方便计算,我们可以简化常数项的部分,即

p ( x a , x b ) p ( x b ) = C x a , x b C x b exp ⁡ ( 1 2 ( x b − μ b ) T Σ b b − 1 ( x b − μ b ) − 1 2 ( ( x a − μ a ) T , ( x b − μ b ) T ) ( Σ a a Σ a b Σ b a Σ b b ) − 1 ( x a − μ a x a − μ a ) ) ( 1.6 ) \frac{p(\boldsymbol{x}_a,\boldsymbol{x}_b)}{p(\boldsymbol{x}_b)}=\frac{C_{\boldsymbol{x}_a,\boldsymbol{x}_b}}{C_{\boldsymbol{x}_b}}\exp \left( \frac{1}{2}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) -\frac{1}{2}\left( \left( \boldsymbol{x}_a-\boldsymbol{\mu }_a \right) ^{\mathbf{T}},\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}} \right) \left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) ^{-1}\left( \begin{array}{c} \boldsymbol{x}_a-\boldsymbol{\mu }_a\\ \boldsymbol{x}_a-\boldsymbol{\mu }_a\\ \end{array} \right) \right) (1.6) p(xb)p(xa,xb)=CxbCxa,xbexp(21(xbμb)TΣbb1(xbμb)21((xaμa)T,(xbμb)T)(ΣaaΣbaΣabΣbb)1(xaμaxaμa))(1.6)

重点分析函数内第二项,该项的核心部分为协方差矩阵的逆,由于 x b \boldsymbol{x_b} xb是条件项,应尽可能保留 Σ b b \mathbf{\Sigma}_{bb} Σbb,即可以通过初等变换简化该项形式,具体如下:

( I − Σ a b Σ b b − 1 0 I ) ( Σ a a Σ a b Σ b a Σ b b ) ( I 0 − Σ b b − 1 Σ b a I ) = ( Σ a a − Σ a b Σ b b − 1 Σ b a 0 0 Σ b b ) ( 1.7 ) \left( \begin{matrix} \mathbf{I}& -\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ \mathbf{0}& \mathbf{I}\\ \end{matrix} \right) \left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) \left( \begin{matrix} \mathbf{I}& \mathbf{0}\\ -\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}& \mathbf{I}\\ \end{matrix} \right) =\left( \begin{matrix} \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}& \mathbf{0}\\ \mathbf{0}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) (1.7) (I0ΣabΣbb1I)(ΣaaΣbaΣabΣbb)(IΣbb1Σba0I)=(ΣaaΣabΣbb1Σba00Σbb)(1.7)

由形式可知,等号两边取逆:

( I 0 − Σ b b − 1 Σ b a I ) − 1 ( Σ a a Σ a b Σ b a Σ b b ) − 1 ( I − Σ a b Σ b b − 1 0 I ) − 1 = ( ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 0 0 Σ b b − 1 ) ( 1.8 ) \left( \begin{matrix} \mathbf{I}& \mathbf{0}\\ -\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}& \mathbf{I}\\ \end{matrix} \right) ^{-1}\left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) ^{-1}\left( \begin{matrix} \mathbf{I}& -\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ \mathbf{0}& \mathbf{I}\\ \end{matrix} \right) ^{-1}=\left( \begin{matrix} \left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}& \mathbf{0}\\ \mathbf{0}& \mathbf{\Sigma }_{bb}^{-1}\\ \end{matrix} \right) (1.8) (IΣbb1Σba0I)1(ΣaaΣbaΣabΣbb)1(I0ΣabΣbb1I)1=((ΣaaΣabΣbb1Σba)100Σbb1)(1.8)

( Σ a a Σ a b Σ b a Σ b b ) − 1 = ( I 0 − Σ b b − 1 Σ b a I ) ( ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 0 0 Σ b b − 1 ) ( I − Σ a b Σ b b − 1 0 I ) ( 1.9 ) \left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) ^{-1}=\left( \begin{matrix} \mathbf{I}& \mathbf{0}\\ -\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}& \mathbf{I}\\ \end{matrix} \right) \left( \begin{matrix} \left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}& \mathbf{0}\\ \mathbf{0}& \mathbf{\Sigma }_{bb}^{-1}\\ \end{matrix} \right) \left( \begin{matrix} \mathbf{I}& -\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ \mathbf{0}& \mathbf{I}\\ \end{matrix} \right) (1.9) (ΣaaΣbaΣabΣbb)1=(IΣbb1Σba0I)((ΣaaΣabΣbb1Σba)100Σbb1)(I0ΣabΣbb1I)(1.9)

此时:
− 1 2 ( ( x a − μ a ) T , ( x b − μ b ) T ) ( Σ a a Σ a b Σ b a Σ b b ) − 1 ( x a − μ a x b − μ b ) = − 1 2 ( ( x a − μ a ) T , ( x b − μ b ) T ) ( I 0 − Σ b b − 1 Σ b a I ) ( ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 0 0 Σ b b − 1 ) ( I − Σ a b Σ b b − 1 0 I ) ( x a − μ a x b − μ b ) = − 1 2 ( ( x a − μ a ) T , ( x b − μ b ) T ) ( ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 − ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 Σ a b Σ b b − 1 − Σ b b − 1 Σ b a ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 Σ b b − 1 + Σ b b − 1 Σ b a ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 Σ a b Σ b b − 1 ) ( x a − μ a x b − μ b ) = − 1 2 ( x b − μ b ) T Σ b b − 1 ( x b − μ b ) − 1 2 ( x a − μ a − Σ a b Σ b b − 1 ( x b − μ b ) ) T ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 ( x a − μ a − Σ a b Σ b b − 1 ( x b − μ b ) ) ( 1.10 ) -\frac{1}{2}\left( \left( \boldsymbol{x}_a-\boldsymbol{\mu }_a \right) ^{\mathbf{T}},\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}} \right) \left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) ^{-1}\left( \begin{array}{c} \boldsymbol{x}_a-\boldsymbol{\mu }_a\\ \boldsymbol{x}_b-\boldsymbol{\mu }_b\\ \end{array} \right) \\ =-\frac{1}{2}\left( \left( \boldsymbol{x}_a-\boldsymbol{\mu }_a \right) ^{\mathbf{T}},\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}} \right) \left( \begin{matrix} \mathbf{I}& \mathbf{0}\\ -\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}& \mathbf{I}\\ \end{matrix} \right) \left( \begin{matrix} \left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}& \mathbf{0}\\ \mathbf{0}& \mathbf{\Sigma }_{bb}^{-1}\\ \end{matrix} \right) \left( \begin{matrix} \mathbf{I}& -\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ \mathbf{0}& \mathbf{I}\\ \end{matrix} \right) \left( \begin{array}{c} \boldsymbol{x}_a-\boldsymbol{\mu }_a\\ \boldsymbol{x}_b-\boldsymbol{\mu }_b\\ \end{array} \right) \\ =-\frac{1}{2}\left( \left( \boldsymbol{x}_a-\boldsymbol{\mu }_a \right) ^{\mathbf{T}},\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}} \right) \left( \begin{matrix} \left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}& -\left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ -\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}\left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}& \mathbf{\Sigma }_{bb}^{-1}+\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}\left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ \end{matrix} \right) \left( \begin{array}{c} \boldsymbol{x}_a-\boldsymbol{\mu }_a\\ \boldsymbol{x}_b-\boldsymbol{\mu }_b\\ \end{array} \right) \\ =-\frac{1}{2}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) -\frac{1}{2}\left( \boldsymbol{x}_a-\boldsymbol{\mu }_a-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) \right) ^{\mathbf{T}}\left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}\left( \boldsymbol{x}_a-\boldsymbol{\mu }_a-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) \right) (1.10) 21((xaμa)T,(xbμb)T)(ΣaaΣbaΣabΣbb)1(xaμaxbμb)=21((xaμa)T,(xbμb)T)(IΣbb1Σba0I)((ΣaaΣabΣbb1Σba)100Σbb1)(I0ΣabΣbb1I)(xaμaxbμb)=21((xaμa)T,(xbμb)T)((ΣaaΣabΣbb1Σba)1Σbb1Σba(ΣaaΣabΣbb1Σba)1(ΣaaΣabΣbb1Σba)1ΣabΣbb1Σbb1+Σbb1Σba(ΣaaΣabΣbb1Σba)1ΣabΣbb1)(xaμaxbμb)=21(xbμb)TΣbb1(xbμb)21(xaμaΣabΣbb1(xbμb))T(ΣaaΣabΣbb1Σba)1(xaμaΣabΣbb1(xbμb))(1.10)

因此:
p ( x a , x b ) p ( x b ) = − 1 2 ( x a − μ a − Σ a b Σ b b − 1 ( x b − μ b ) ) T ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 ( x a − μ a − Σ a b Σ b b − 1 ( x b − μ b ) ) ( 1.11 ) \frac{p(\boldsymbol{x}_a,\boldsymbol{x}_b)}{p(\boldsymbol{x}_b)}= -\frac{1}{2}\left( \boldsymbol{x}_a-\boldsymbol{\mu }_a-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) \right) ^{\mathbf{T}}\left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}\left( \boldsymbol{x}_a-\boldsymbol{\mu }_a-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) \right) (1.11) p(xb)p(xa,xb)=21(xaμaΣabΣbb1(xbμb))T(ΣaaΣabΣbb1Σba)1(xaμaΣabΣbb1(xbμb))(1.11)

注意到条件概率分布其实是一个高斯分布,满足:
μ a ∣ b = μ a − Σ a b Σ b b − 1 ( x b − μ b ) (1.12) \boldsymbol{\mu}_{a|b}=\boldsymbol{\mu }_a-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) \tag{1.12} μab=μaΣabΣbb1(xbμb)(1.12)

Σ a ∣ b = Σ a a − Σ a b Σ b b − 1 Σ b a (1.13) \boldsymbol{\Sigma}_{a|b}=\mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \tag{1.13} Σab=ΣaaΣabΣbb1Σba(1.13)

其中可以看出均值是 x b \boldsymbol{x}_b xb 的线性函数,协方差与其无关。该式说明已知协方差矩阵和 x b \boldsymbol{x}_b xb 可以求出 x a \boldsymbol{x}_a xa 的分布。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值