对多维高斯分布的理解

本文高度参考: https://zhuanlan.zhihu.com/p/36522776

(1)

如果是一元标准高斯分布,对应的就是前面的表达式,它是高斯分布最简单的形式。

要推导出最右边的看似复杂的表达式,其实也不难。就是不断的在z-score标准化,以及一些线性代数的计算罢了。我们还知道一元一般的高斯分布形式如下,其实可以将上面标准高斯分布对积分变量换元,换到标准高斯分布下就能得到的:

(2)

我们看一下ΣX表示的是随机变量的协方差矩阵,其第i行第j列的元素aij=E((xi-μi)(xj-μj)),也就是说当各个维度的变量不相关的时候,该矩阵将会是对角矩阵,而其逆Σ-1X也将是对角矩阵。由于该表达式指数上 (-1/2(X-μX)TΣ-1X(X-μX)) 是一个二项式,而二项式的矩阵为对角矩阵好展开一些(只含有平方项),我们就从这个各个维度的变量不相关假设开始入手证明。

我们知道当两个变量独立时候,P(x,y)=PxPy。也就是联合概率密度等于边缘概率密度的乘积。我们这里的条件虽然是不相关,但对于高斯分布,只要变量之间不相关就能证明其是独立的,也就能写出其乘积形式:

(3)

而之前我们说了,指数上的那部分是二项式,可以写成矩阵形式:

 

(4)

其中,指数部分省去常数项为公式(5)所示,可以看出Σ矩阵的对角线为各个变量的方差矩阵,而Σ-1为其逆矩阵。

(5)

接下来,我们只需要证明对于变量各维度之间有相关性的情况。同理,我们可以把线性相关的量投影为线性无关。就是坐标系的变换。

(6)

其中U的每一列代表了一个投影方向,这一步操作相当于将原来的X向量从原来的坐标系,变换到新的坐标系下。(类似数据点分布为椭圆可以找到长轴短轴,那就是两个投影方向。相对应的,数据点为三维时,数据分布为椭球,投影方向就为它的三个轴。)

到这一步,Y变量的每一维度就线性无关了。我们可以继续让Y的个维度方差为1。及令Z=DY。其中D为:

(7)

我们知道当高斯分布为(高维或多维)标准高斯分布时,指数上的部分就是欧式距离的平方,我们计算:

(8)

展开得:

(9)

我们知道有:

(10)

我们可以通过协方差矩阵Σx 和Σy的定义得到他们之间的关系:

 

(11)

我们还知道一个条件U矩阵是正交的即UT=U-1。

因而我们可以得到:

(12)

接下来我们只需要证明非指数部分,由于概率密度函数要求积分和为1。前面我们做的相当于把积分变量换元了Z=DUT(X-μ),需要在前面乘以|DUT|,也就是乘以|Σx|-1/2,即证:

(13)

至于为什么积分变量换元,在这就是前面乘以其行列式。我的理解对于多维高斯分布,该矩阵必须满秩,可以理解为对坐标进行投影变换然后再缩放。由于是不定积分,坐标的投影变换并不会影响积分结果,而缩放的系数正好就是行列式的值,这样就好理解前面乘以|Σx|-1/2的原因了。

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值