吴恩达的《机器学习(CS229)》Lecture note 9(Part X Factor analysis)中提及了多元高斯分布的边缘分布和条件分布,指出这两者本身亦是高斯分布,但没有给出详细的证明。我自己尝试着推导,但不得要领,直到上网搜索后才恍然大悟。现将该证明过程记录于此,关键在于对协方差矩阵进行LDU分解。
边缘分布
一个多元概率分布的部分元所服从的概率分布即边缘分布,通过将剩余元求和或积分得到。比如,对于一个二元(用X,Y代表其随机变量)概率密度函数(可理解为X∈[x, x+dx]且Y∈[y, y+dy]的概率),X所服从的边缘分布的密度函数通过将变量Y积分得到,即
(1)
代表X∈[x, x+dx]而Y可以是任意值的概率。
条件分布
设A和B是两个事件,条件概率定义为在事件A发生的条件下,事件B发生的概率
(2)
依旧以上述的二元概率密度为例,根据定义,其条件概率密度即为
(3)
于是,上述的边缘概率密度也可进一步表示为
(4)
多元高斯分布
多元高斯分布是一维情况的推广。在一维时,假设随机变量X服从高斯分布,其概率密度为
(5)
记作,其中为随机变量X的期待值,为方差。现推广到n个随机变量,此时,对应的密度函数指数部分为这n个变量的一个二次型(假设各随机变量的期待值均为0),即一个实系数的二次齐次函数