文章同步更新于 github page,欢迎收藏!
高斯分布的表示
高斯分布有两种表达方式
- 协方差矩阵+均值
- 信息矩阵+信息矢量
协方差矩阵+均值的方式比较常见,如下
p ( x ) = η exp { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } p(x)=\eta \exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\} p(x)=ηexp{ −21(x−μ)TΣ−1(x−μ)}
其中对称正定矩阵 Σ \Sigma Σ为随机变量 x x x的协方差矩阵, μ \mu μ为 x x x的均值,简记为
p ( x ) = N ( μ , Σ ) p(x) = N(\mu, \Sigma) p(x)=N(μ,Σ)
信息矩阵+信息矢量的形式可以由上式推导而来
p ( x ) = η exp { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } = η exp { − 1 2 x T Σ − 1 x + x T Σ − 1 μ } \begin{aligned} p(x)&=\eta \exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\} \\ &=\eta\exp\{-\frac{1}{2}x^T\Sigma^{-1}x+x^T\Sigma^{-1}\mu\} \end{aligned} p(x)=ηexp{ −21(x−μ)TΣ−1(x−μ)}=ηexp{ −21xTΣ−1x+xTΣ−1μ}
运算中产生的常数项都全部吸收到了 η \eta η 中.
现在定义信息矩阵 Ω = Σ − 1 \Omega=\Sigma^{-1} Ω=Σ−1,信息矢量 ξ = Σ − 1 μ = Ω μ \xi=\Sigma^{-1}\mu=\Omega\mu ξ=Σ−1μ=Ωμ,则
p ( x ) = η exp { − 1 2 x T Ω x + x T ξ } p(x)=\eta\exp\{-\frac{1}{2}x^T\Omega x+x^T\xi\} p(x)=ηexp{ −21xTΩx+xTξ}
可记为
p ( x ) = N − 1 ( ξ , Ω ) p(x) = N^{-1}(\xi, \Omega) p(x)=N−1(ξ,Ω)
联合高斯分布的分解
设随机变量 x a , x b x_a, x_b xa,xb满足联合高斯分布 p ( x a , x b ) p(x_a, x_b) p(xa,xb)
由条件概率公式可知
p ( x a , x b ) = p ( x a ) p ( x b ∣ x a ) p(x_a, x_b)=p(x_a)p(x_b|x_a) p(xa,xb)=p(xa)p(xb∣xa)
联合高斯函数的分解就是根据 p ( x a , x b ) p(x_a, x_b) p(xa,xb)求出上式中的 p ( x a ) p(x_a) p(xa)和 p ( x b ∣ x a ) p(x_b|x_a) p(xb∣xa)。
下面根据不同的高斯分布表示形式分别推导。
协方差矩阵+均值
p ( x a , x b ) p(x_a, x_b) p(xa,xb)以协方差矩阵+均值的形式给出,即
p ( x a , x b ) = N ( ( μ a μ b ) , ( Σ a a Σ a b Σ b a Σ b b ) ) p(x_a, x_b) = N\Bigg(\begin{pmatrix} \mu_a \\ \mu_b \end{pmatrix}, \begin{pmatrix} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{pmatrix}\Bigg) p(xa,xb)=N((μaμb),(ΣaaΣbaΣabΣbb))
其密度函数可写为
p ( x a , x b ) = η exp { − 1 2 ( x a − μ a x b − μ b ) T ( Σ a a Σ a b Σ b a Σ b b ) − 1 ( x a − μ a x b − μ b ) } p(x_a, x_b)=\eta \exp\Bigg\{-\frac{1}{2}\begin{pmatrix} x_a-\mu_a \\ x_b-\mu_b \end{pmatrix}^T\begin{pmatrix} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{pmatrix}^{-1}\begin{pmatrix} x_a-\mu_a \\ x_b-\mu_b \end{pmatrix}\Bigg\} p(xa,xb)=ηexp{ −21(xa−μaxb−μb)T(ΣaaΣbaΣabΣbb)−1(xa−μaxb−μb)}
为了求出 p ( x a ) p(x_a) p(xa)和 p ( x b ∣ x a ) p(x_b|x_a) p(xb∣xa)的表达式,需要用到舒尔补(Schur Complement),即
( Σ a a Σ a b Σ b a Σ b b ) = ( I 0 Σ b a Σ a a − 1 I ) ( Σ a a 0 0 Σ b b − Σ b a Σ a a − 1 Σ a b ) ( I Σ a a − 1 Σ a b 0 I ) \begin{pmatrix} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{pmatrix}= \begin{pmatrix} I & 0\\ \Sigma_{ba}\Sigma_{aa}^{-1} & I \end{pmatrix} \begin{pmatrix} \Sigma_{aa} & 0 \\ 0 & \Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \end{pmatrix} \begin{pmatrix} I & \Sigma_{aa}^{-1}\Sigma_{ab} \\ 0 & I \end{pmatrix} (ΣaaΣbaΣabΣbb)=(IΣbaΣaa−10I)(Σaa00Σbb−ΣbaΣaa−1Σab)(I0Σaa−1ΣabI)
将上式带入 p ( x a , x b ) p(x_a, x_b) p(xa,xb)的概率密度函数,并注意到对任意矩阵 K K K,有
( I 0 K I ) − 1 = ( I 0 − K I ) , ( I K 0 I ) − 1 = ( I − K 0 I ) \begin{pmatrix} I & 0 \\ K & I \end{pmatrix}^{-1}= \begin{pmatrix} I & 0 \\ -K & I \end{pmatrix},\ \ \begin{pmatrix} I & K \\ 0 & I \end{pmatrix}^{-1}= \begin{pmatrix} I & -K \\ 0 & I \end{pmatrix} (IK0I)−1=(I−K0I), (I0KI)−1=(I0−KI)
可以得到
p ( x a , x b ) = η exp { − 1 2 ( x a − μ a ) T Σ a a − 1 ( x a − μ a ) − 1 2 [ x b − ( μ b + Σ b a Σ a a − 1 ( x a − μ a ) ) ] T Θ b b [ x b − ( μ b + Σ b a Σ a a − 1 ( x a − μ a ) ) ] } p(x_a, x_b)=\eta \exp\{-\frac{1}{2}(x_a-\mu_a)^T\Sigma_{aa}^{-1}(x_a-\mu_a)-\frac{1}{2}[x_b-(\mu_b+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a))]^T\Theta_{bb}[x_b-(\mu_b+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a))]\} p(xa,xb)=ηexp{ −21(xa−μa)TΣaa−1(xa−μa)−21[xb−(μb+ΣbaΣaa−1(xa−μa))]TΘbb[xb−(μb+ΣbaΣaa−1(xa−μ