2.3 高斯分布
高斯分布,也叫正态分布,是广泛应用在连续性变量中的分布。它的形式是
而高维(多变量)正态分布的形式是
其中Σ表示协方差矩阵
- 不论是单变量还是多变量的情况,正态分布均为使熵最大的分布
- 满足一定条件时,一系列随机变量的和的分布将随着随机变量数目的增多趋近于正态分布(中心极限定理)(实际情况中这种趋势非常迅速)
- 想学好正态分布(尤其是多元)得对矩阵操作非常熟悉(说明线性代数是多么重要),不过在笔记中为了理解性的考虑尽量只保留结论而略去复杂的推导过程
如何理解多变量正态分布中的μ和Σ?
高斯分布的局限:
- 维数灾难 设Σ是对称矩阵,D维高斯分布中也有D(D+1)/2 + D = D(D+3)/2个相互独立的参数,对于大的D它是二次增长的。为了尝试解决这个问题,如果我们只用对角化的协方差矩阵,即
,那么便只有2D个参数。尽管它通过限制自由度简化了求逆的运算,但也限制了概率密度的形式并使高斯分布捕获数据中有趣的相关性的能力受到限制。
- 单峰性 即它的密度函数只有一个最大值。所以如果实际分布式多峰的,那么高斯分布就不能提供一个良好的近似。
2.3.1-2.3.2 条件高斯分布和边缘高斯分布
给定联合高斯分布
并设
,以及
其中xa和xb是两组变量,我们分别打算研究
条件高斯分布:给定xb的值的时候xa服从的分布
边缘高斯分布:对xb积分后,xa服从的分布(即仅