2.3高斯分布

高斯分布又称正态分布,被广泛用于连续变量分布的模型。对于单变量x,高斯分布的形式



这里表示期望,表示方差。对于一个D维向量X,其多元高斯分布形式为:
这里是一个D维均值向量,的协方差矩阵,表示的行列式。

    高斯分布出现在很多应用中并可以从很多角度来阐释。比如,我们已经见过的实单变量使熵最大的分布就是高斯分布。该性质同样适用于多元高斯分布中。

         当考虑多个随机变量和的分布是另一个应用高斯分布的情境。中心极限定理central limit theoremLaplace 提出)告诉我们:在一定的简单条件下,一系列随机变量的和(其自身当然也是随机变量)的分布随着项的增加其越接近高斯分布。可以通过N个服从[0 1]间分布的变量的均值
的分布来阐述。当N很大时,该分布趋向于高斯分布。事实上,随着N的增大它会很快收敛于高斯分布。该结果的一个推论是:当N趋于时,二元分布即二元变量的N次观察中出现m次的分布,趋于高斯分布。

         高斯分布具有很多重要的性质,我们将会具体讨论其中的几个。因此,相对于以前的章节,这节将会牵涉更多的技术性,而且需要熟悉各种矩阵特性。但是,我们强烈建议读者用此处介绍的技术熟练掌握高斯分布,因为这对以后章节出现的更为复杂的模型的理解将是非常重要的。

         我们首先考虑高斯分布的几何形式。X上的高斯分布的功能函数是出现在指数上的二次形式


称为从的马氏距离(Mahalanobis distance),当是单位矩阵时变为欧氏距离(Euclidean distance)。因为该二次项为常数,所以在X-空间表面高斯分布也是常量。
    首先,我们注意到是一个对称矩阵,不失一般性,任何非对称部分将从指数中消失。现在来考虑协方差矩阵的特征向量等式

这里。因为是实对称矩阵,所以它的特征向量都是实向量,并且可以构成正交向量集,即

这里是单位矩阵的第i行的第j个元素,满足

 

协方差矩阵 可以用特征向量展开成如下形式:
类似,协方差举证的逆 可表示为

将(2.49)代入(2.44),则二次式变为

 

这里我们定义

我们可以将理解为由正交向量定义的新的坐标系,该坐标系是对初始坐标的平移和旋转。用向量的形式,我们有

这里是一个行向量为的矩阵。从(2.46)了解到是正交矩阵,比如它满足也满足是单位矩阵)。

 

     因为( 2.51 )是一个常量,所以二次式,因而高斯密度,在表面也是常量。如果所有的特征值 都是正的,那么这些平面表现为椭圆,而且 是其中心,轴朝向 ,而且在轴向的尺度系数为

    为了高斯分布意义明确,必须使协方差举证的所有特征值都严格为正,否则,该分布不能正确规范。矩阵的特征值严格为正又称为矩阵正定。在第12章,我们将遇到1个或多个特征值为0的高斯分布,在这种情况下,该分布是异常的或者是定义于低维子空间。如果所有特征值非负,那么,协方差矩阵称为半正定矩阵。
         现在考虑由定义的新坐标系下的高斯分布形式。从XY坐标系,我们有一雅克比矩阵Jacobian matrix),它的元素定义为

的元素。用地正交性质,可见雅克比矩阵(Jacobian matrix)行列式的平方是

因此。同时,协方差矩阵的行列式可以记为它的特征值的乘积

因此,在坐标系下,高斯分布的形式为

即是D个独立单变量高斯分布的乘积。因此,特征向量定义新的旋转和平移坐标系时考虑到了将联合概率分布分解成独立分布的乘积。在坐标系下,分布的积分为

 

这里我们使用了(2.48)的结果来标准化单变量高斯分布。该式证实了多变量高斯(2.43)确实是正态的。

          现在考察高斯分布的矩,从而理解参数 。高斯分布下 X 地期望是

这里我们使用了变量替换。注意到指数是因子Z的偶函数,并且积分区域是(- ∞,+ ∞),因此,中的将会对称抵消。因此,

所以,我们把 认为是高斯分布的均值。

    现在考虑高斯二阶矩。在单变量情况下,我们认为是高斯二阶矩。而对于多变量高斯,存在个二阶矩由表示,可以组合形成矩阵。该矩阵可记为



这里我们仍然采用了变量替换。注意到交叉项会再次被对称抵消。项是常量(是一个单元(unity),因为高斯分布的标准化),可提到积分号外边。考虑项,我们可以再次使用(2.45)给出的协方差矩阵的特征向量展开,并结合特征向量集的完备性,记

这里,得到

这里我们使用了特征向量等式(2.45),并结合了中间行的右边积分除非i=j将会消失,在最后一行,我们使用了(1.50)、(2.55)和(2.48)的结果。因此,我们有

    对于单个随机变量,在计算二阶矩前减去均值是为了定义方差。类似地,在多变量情形下,减去均值会使得计算如下定义的协方差非常方便,

对于特定的高斯分布,我们可以使用 并结合( 2.62 )的结果,给出
因为系数矩阵 控制了高斯分布 X 的协方差,所以它被称为协方差矩阵。

 

     尽管,高斯分布( 2.43 )被广泛用作密度模型,但它存在一些明显的缺陷。考虑分布中的自由参数的个数,一个普通的对称协方差矩阵将会有 D D+1 /2 个自由参数,加上均值向量中的 D 个自由参数,总共有 D D+3 /2 个参数。参数个数随着 D 的二次方增长,当 D 非常大时,操作和逆置大矩阵将会受到限制。一种解决该问题的办法是使用限定形式的协方差矩阵。如果协方差矩阵时对角阵,即
,那么在密度模型中只有 2D 个自由参数。恒定密度的响应边缘将是坐标对齐的椭圆。我们可以更进一步限定协方差矩阵是和单位矩阵成比例即 ,由称为各向同性协方差,则在模型中只有 D+1 个独立参数,并且恒定密度曲线是圆。不幸的是,尽管这种方法限制了分布中的自由度而且使得协方差矩阵的操作更加快速,但是它也极大地限制了概率密度的形式并且限制了分布表示数据间的相关性的能力。

         对高斯分布一个更进一步的限制是:它是一个本质单峰(intrisically unimodal)。因此不能对多峰分布给出一个好的近似。因此,高斯分布既能很灵活并对很对参数敏感,也能有很多限制使其仅仅足够表示的分布区域。后面我们将介绍潜在变量,又称隐含变量,或未观测变量,能够同时解决这些问题。特别地,一个丰富的通过介绍潜在离散变量倒出混合高斯而获得的多元分布将会在2.3.9节介绍。类似地,在第12章介绍的潜在连续变量模型其自由参数的个数将能够被数据空间的维数D独立控制并且该模型能够很好地获得数据集的主要相关性关系。事实上,这两种方法可以联合使用并且进行进一步扩展到丰富的能够适用于更加广泛的实际应用领域中的层次模型。比如,广泛应用于图象概率模型的高斯模型的马尔科夫随机场(Markov random field),就是在像素强度的联合空间的高斯分布,该空间通过采用合理的反映像素空间组织关系的结构而很容易处理。类似地,应用在跟踪等时序数据模型的动态线性系统(linear dynamical system),同样是一个在可能含有大量观测和潜在观测的数据上的联合高斯分布,由于利用了分布中的结构同样很容易处理。图象概率模型就是对这种复杂分布的形式和性质的一个很好阐释,它将组成第8章。