条件高斯分布与边缘高斯分布的常用性质
基本知识
多元高斯分布的一个重要性质是,如果两组变量是联合高斯分布,那么以一组变量为条件,另一组变量同样是高斯分布。类似地,任何一个变量的边缘分布也是高斯分布。
首先考虑条件概率的情形。假设 x 是一个服从高斯分布 N ( x ∣ μ , Σ ) \mathcal{N}(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) N(x∣μ,Σ) 的D维向量。我们把 x \boldsymbol{x} x划分成两个不相交的子集 x a \boldsymbol{x}_{a} xa和 x b \boldsymbol{x}_{b} xb。不失一般性,我们可以令 x a \boldsymbol{x}_{a} xa为 x \boldsymbol{x} x的前M个分量,令 x b \boldsymbol{x}_{b} xb为剩余的D − M个分量,因此 x = ( x a x b ) \boldsymbol{x}=\left(\begin{array}{l}{\boldsymbol{x}_{a}} \\ {\boldsymbol{x}_{b}}\end{array}\right) x=(xaxb)我们也定义对应的对均值向量 μ 的划分,即
μ = ( μ a μ b ) \boldsymbol{\mu}=\left(\begin{array}{c}{\boldsymbol{\mu}_{a}} \\ {\boldsymbol{\mu}_{b}}\end{array}\right) μ=(μaμb)协方差矩阵 Σ \mathbf{\Sigma} Σ为 Σ = ( Σ a a Σ a b Σ b a Σ b b ) \boldsymbol{\Sigma}=\left(\begin{array}{cc}{\boldsymbol{\Sigma}_{a a}} & {\boldsymbol{\Sigma}_{a b}} \\ {\boldsymbol{\Sigma}_{b a}} & {\boldsymbol{\Sigma}_{b b}}\end{array}\right) Σ=(ΣaaΣbaΣabΣbb)
注:协方差矩阵均为对称矩阵
在许多情况下,使用协方差矩阵的逆矩阵比较方便。即 Λ = Σ − 1 = ( Λ a a Λ a b Λ b a Λ b b ) \Lambda = \Sigma^{-1}=\left(\begin{array}{ll}{\mathbf{\Lambda}_{a a}} & {\mathbf{\Lambda}_{a b}} \\ {\mathbf{\Lambda}_{b a}} & {\mathbf{\Lambda}_{b b}}\end{array}\right) Λ=Σ−1=(ΛaaΛbaΛabΛbb)这被称为精度矩阵,分块矩阵的逆矩阵的恒等式如下
( A B C D ) − 1 = ( M − M B D − 1 − D − 1 C M D − 1 + D − 1 C M B D − 1 ) \left(\begin{array}{cc}{A} & {B} \\ {C} & {D}\end{array}\right)^{-1}=\left(\begin{array}{cc}{M} & {-M B D^{-1}} \\ {-D^{-1} C M} & {D^{-1}+D^{-1} C M B D^{-1}}\end{array}\right) (ACBD)−1=(M−D−1CM−MBD−1D−1+D−1CMBD−1) M = ( A − B D − 1 C ) − 1 M=\left(A-B D^{-1} C\right)^{-1} M=(A−BD−1C)−1
注:在推导条件高斯分布时,精度矩阵更方便,在推导边缘高斯分布时协方差矩阵更方便
目的1:给定联合分布的表达式,寻找条件概率分布 p ( x a ∣ x b ) p\left(\boldsymbol{x}_{a} | \boldsymbol{x}_{b}\right) p(xa∣xb)的表达式
一种比较高效的计算方法
首先给定联合分布为 − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) = − 1 2 ( x a − μ a ) T Λ a a ( x a − μ a ) − 1 2 ( x a − μ a ) T Λ a b ( x b − μ b ) − 1 2 ( x b − μ b ) T Λ b a ( x a − μ a ) − 1 2 ( x b − μ b ) T Λ b b ( x b − μ b ) \begin{aligned}-\frac{1}{2}(&\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})=\\ &-\frac{1}{2}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)^{T} \boldsymbol{\Lambda}_{a a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)-\frac{1}{2}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)^{T} \boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right) \\ &-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)^{T} \boldsymbol{\Lambda}_{b a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)^{T} \boldsymbol{\Lambda}_{b b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right) \end{aligned} −21(x−μ)TΣ−1(x−μ)=−21(xa−μa)TΛa