PRML学习笔记-条件高斯分布与边缘高斯分布的常用性质

最新推荐文章于 2024-01-23 10:12:42 发布

Bingolby

最新推荐文章于 2024-01-23 10:12:42 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签： PRML 笔记

本文链接：https://blog.csdn.net/qq_37394299/article/details/103071404

版权

本文详细探讨了条件高斯分布与边缘高斯分布的性质，包括如何从联合高斯分布中求解条件概率分布p(xa|xb)和边缘概率分布。利用精度矩阵和协方差矩阵的性质，通过'完成平方项'的方法，解释了如何找到这些分布的均值和协方差。

摘要由CSDN通过智能技术生成

条件高斯分布与边缘高斯分布的常用性质

基本知识

多元高斯分布的一个重要性质是,如果两组变量是联合高斯分布,那么以一组变量为条件,另一组变量同样是高斯分布。类似地,任何一个变量的边缘分布也是高斯分布。
首先考虑条件概率的情形。假设 x 是一个服从高斯分布 $\mathcal{N}(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma})$ 的D维向量。我们把 $\boldsymbol{x}$ 划分成两个不相交的子集 $\boldsymbol{x}_{a}$ 和 $\boldsymbol{x}_{b}$ 。不失一般性,我们可以令 $\boldsymbol{x}_{a}$ 为 $\boldsymbol{x}$ 的前M个分量,令 $\boldsymbol{x}_{b}$ 为剩余的D − M个分量,因此 $\boldsymbol{x}=\left(\begin{array}{l}{\boldsymbol{x}_{a}} \\ {\boldsymbol{x}_{b}}\end{array}\right)$ 我们也定义对应的对均值向量 μ 的划分,即
$\boldsymbol{\mu}=\left(\begin{array}{c}{\boldsymbol{\mu}_{a}} \\ {\boldsymbol{\mu}_{b}}\end{array}\right)$ 协方差矩阵 $\mathbf{\Sigma}$ 为 $\boldsymbol{\Sigma}=\left(\begin{array}{cc}{\boldsymbol{\Sigma}_{a a}} & {\boldsymbol{\Sigma}_{a b}} \\ {\boldsymbol{\Sigma}_{b a}} & {\boldsymbol{\Sigma}_{b b}}\end{array}\right)$

注:协方差矩阵均为对称矩阵

在许多情况下,使用协方差矩阵的逆矩阵比较方便。即 $\Lambda = \Sigma^{-1}=\left(\begin{array}{ll}{\mathbf{\Lambda}_{a a}} & {\mathbf{\Lambda}_{a b}} \\ {\mathbf{\Lambda}_{b a}} & {\mathbf{\Lambda}_{b b}}\end{array}\right)$ 这被称为精度矩阵,分块矩阵的逆矩阵的恒等式如下
$\left(\begin{array}{cc}{A} & {B} \\ {C} & {D}\end{array}\right)^{-1}=\left(\begin{array}{cc}{M} & {-M B D^{-1}} \\ {-D^{-1} C M} & {D^{-1}+D^{-1} C M B D^{-1}}\end{array}\right)$ $M=\left(A-B D^{-1} C\right)^{-1}$

注:在推导条件高斯分布时,精度矩阵更方便,在推导边缘高斯分布时协方差矩阵更方便

目的1:给定联合分布的表达式,寻找条件概率分布 $p\left(\boldsymbol{x}_{a} | \boldsymbol{x}_{b}\right)$ 的表达式

一种比较高效的计算方法
首先给定联合分布为 $\begin{aligned}-\frac{1}{2}(&\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})=\\ &-\frac{1}{2}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)^{T} \boldsymbol{\Lambda}_{a a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)-\frac{1}{2}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)^{T} \boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right) \\ &-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)^{T} \boldsymbol{\Lambda}_{b a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)^{T} \boldsymbol{\Lambda}_{b b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right) \end{aligned}$