AI算法基础补完之多元正态分布_多个正态分布相乘-CSDN博客

1.多元正态分布的概率密度函数
　　多元是指样本以多个变量来描述，或具有多个属性，在此一般用d维特征向量表示，X＝[x₁，…，x_d]^T。d维特征向量的正态分布用下式表示
　　

(2-32)
　　其中μ是X的均值向量，也是d维，
　　μ＝E{X}＝[μ₁，μ₂，…，μ_d]^T (2-33)
　　Σ是d×d维协方差矩阵，而Σ－1是Σ的逆矩阵，|Σ|是Σ的行列式
　　Σ＝E{(X－μ)(X－μ)^T} (2-34)
　　Σ是非负矩阵，在此我们只考虑正定阵，即|Σ|＞0。
　　多元正态分布与单态量正态分布在形式上尽管不同，但有很多相似之处，实际上单变量正态分布只是维数为1的多元分布。当d=1时，Σ只是一个1×1的矩阵，也就是只有1个元素的矩阵，退化成一个数，|Σ|^1/2也就是标准差σ，Σ－1也就是σ-2，而(X－μ)^T(X－μ)也变成(X-μ)²，因此(2-32)也就演变成(2-29)。但是多元正态分布要比单变量时复杂得多，具有许多重要的特性，下面只就有关的特性加以简单叙述。
　　多元正态分布的概率密度函数中的元就是我们前面说得特征向量的分量数，也就是维数。为了方便我们着重讨论二维向量，是一个随机向量，其中每一个分量都是随机变量，服从正态分布。但是一个二维随机向量不仅要求考虑每个分量单独的分布，还要考虑两个随机变量之间的关系。下图的例子中的两个二元正态分布的各个分量是相同的，即它们的期望(μ1和μ2)方差σ1和σ2都相同，但这两个特征向量在空间的分布却不相同。从下图：

对右图来说，x₁和x₂有很大的相关性，而对左图来说，随机变量x₁与x₂之间的相关性很小。这可以从两者的区别看出来。对于右图可以看出一个随机变量的x₁分量较小时，另一分量x₂也必然较小。而当随机变量的x₁较大时，则其相应的x₂分量也较大。换句话说，如果x₁分量小于其均值μ₁,则其相应的分量x₂也很可能小于它的均值μ₂。因此当x₁-μ₁<0时，也常伴有x₂-μ₂<0 ，这说明它们之间有联系，或称相关性，用

这两项相乘来看就有倾向化。对整个随机变量样本集取期望值，就会使

有非零值。反过来看左图中的随机变量分布，就没有这种规律，一个随机变量x₁分量小于其均值 ,并不对其相应分量x₂与之间的关系有什么限制。在此时一个随机变量(x₁-μ₁)与(x₂-μ₂)的乘积的符号就可正可负，则

就可能接近于零，或等于零。因此我们可以用

来衡量这种相关性，称为协方差。则后者的协方差是个正数，而后者很可能为零，协方差越大，说明两个变量的相关度越高。为了将各个分量的方差、协方差都用一个统一的方式表示，则可使用式(2-34)，用符号Σ表示。你如果将(2-42)表示一个二维向量，你就会发现该矩阵的非对角元素正表示了两个分量之间的相关性，而主对角元素则是各分量本身的方差。