1.多元正态分布的概率密度函数 多元是指样本以多个变量来描述,或具有多个属性,在此一般用d维特征向量表示,X=[x1,…,xd]T。d维特征向量的正态分布用下式表示 (2-32) 其中μ是X的均值向量,也是d维, μ=E{X}=[μ1,μ2,…,μd]T (2-33) Σ是d×d维协方差矩阵,而Σ-1是Σ的逆矩阵,|Σ|是Σ的行列式 Σ=E{(X-μ)(X-μ)T} (2-34) Σ是非负矩阵,在此我们只考虑正定阵,即|Σ|>0。 多元正态分布与单态量正态分布在形式上尽管不同,但有很多相似之处,实际上单变量正态分布只是维数为1的多元分布。当d=1时,Σ只是一个1×1的矩阵,也就是只有1个元素的矩阵,退化成一个数,|Σ|1/2也就是标准差σ,Σ-1也就是σ-2,而(X-μ)T(X-μ)也变成(X-μ)2,因此(2-32)也就演变成(2-29)。但是多元正态分布要比单变量时复杂得多,具有许多重要的特性,下面只就有关的特性加以简单叙述。 多元正态分布的概率密度函数中的元就是我们前面说得特征向量的分量数,也就是维数。为了方便我们着重讨论二维向量,是一个随机向量,其中每一个分量都是随机变量,服从正态分布。但是一个二维随机向量不仅要求考虑每个分量单独的分布,还要考虑两个随机变量之间的关系。下图的例子中的两个二元正态分布的各个分量是相同的,即它们的期望(μ1和μ2)方差σ1和σ2都相同,但这两个特征向量在空间的分布却不相同。从下图: |
对右图来说,x1和x2有很大的相关性,而对左图来说,随机变量x1与x2之间的相关性很小。这可以从两者的区别看出来。对于右图可以看出一个随机变量的x1分量较小时,另一分量x2也必然较小。而当随机变量的x1较大时,则其相应的x2分量也较大。换句话说,如果x1分量小于其均值μ1,则其相应的分量x2也很可能小于它的均值μ2。因此当x1-μ1<0时,也常伴有x2-μ2<0 ,这说明它们之间有联系,或称相关性,用这两项相乘来看就有倾向化。对整个随机变量样本集取期望值,就会使有非零值。反过来看左图中的随机变量分布,就没有这种规律,一个随机变量x1分量小于其均值 ,并不对其相应分量x2与 之间的关系有什么限制。在此时一个随机变量(x1-μ1)与(x2-μ2)的乘积的符号就可正可负,则就可能接近于零,或等于零。因此我们可以用来衡量这种相关性,称为协方差。则后者的协方差是个正数,而后者很可能为零,协方差越大,说明两个变量的相关度越高。为了将各个分量的方差、协方差都用一个统一的方式表示,则可使用式(2-34),用符号Σ表示。你如果将(2-42)表示一个二维向量,你就会发现该矩阵的非对角元素正表示了两个分量之间的相关性,而主对角元素则是各分量本身的方差。 Σ称为协方差矩阵。 那么以下是上两图特征向量分布的协方差矩阵: 和,请问哪个是左图,哪个是右图?(前一个是左图) 如果是一个三维向量,它的协方差矩阵是几乘几的矩阵?每个元素又对应什么含义? (是个3×3矩阵, ) 还需要指出的是,协方差矩阵并不只对正态分布有用,它是多元随机变量中一个重要的数学统计表示方法,它描述了一个随机变量样本集中各个分量之间的相关性。 协方差矩阵还有一些很重要的属性,是经常用到的。其中一个特性是:它是一个对称矩阵,如果它的第i行第j列元素表示成,则应有。这就是说与第j行第i列的元素是相同的,这就是对称性。另一个特性是:由于它的主对角元素都是各分量的方差,因此一般情况下都是大于零的值。因此协方差矩是正定的,这一点也是十分有用的。 |
AI算法基础补完之多元正态分布
最新推荐文章于 2024-04-19 00:01:32 发布