高斯分布推论【转】

先从均值为0,方差为1的一元正态分布开始,概率密度函数为:
在这里插入图片描述
在均值为 \mu ,方差为 ![](https://img-blog.csdnimg.cn/20181120123405988.png)的情况下,需要标准化一下:在这里插入图片描述
标准化之后方差变为1,标准化的意义在于将数据点 x 到均值 \mu 的距离转化为数据点 x 到均值的距离等于多少个总体的标准差 \sigma ,这样,就消除了数据分布差异和量纲对概率计算的影响,此时的概率密度函数为:在这里插入图片描述
可见,高斯分布的概率密度计算核心在于计算数据点到中心的距离,并且除以标准差将这个绝对距离转化为相对距离,然后通过距离平方的指数衰减计算概率密度。
回到多元正态分布,先从各维度不相关的多元正态分布入手,数据点通过 d 维的列向量描述 x=\left[ x_1,x_2,\cdots,x_d \right]^T ,各个维度的均值方差分别为 \mu_1,\mu_2,\cdots,\mu_d , sigma_1,\sigma_2,\cdots,\sigma_d 来描述,高斯概率密度函数可以表示为:在这里插入图片描述
这样,各个维度之间不相关的多元正态分布概率密度其实就是各个维度的正态分布概率密度函数的乘积,其实是因为各变量之间互不相关,因此联合概率密度等于各自概率密度的乘积,我们来把她写的漂亮点:
在这里插入图片描述
其中, \Sigma 是协方差矩阵,里面的第 i 行第 j 列元素表示第 i 个变量第 j 个变量的协方差,由于假设了各个维度之间不相关,因此协方差矩阵只有在对角线的位置有值,代表不同变量的方差大小。这里面用到了 \sigma_1\sigma_2\cdots\sigma_d=\left| \Sigma \right|^\frac{1}{2} (行列式的计算,对角行列式等于对角线上元素的乘积)。
好,那么回到问题的重点,在维度之间互相关的多元高斯分布中,如何计算相对距离呢?让我来举个吴恩达老师课上的例子,这是一个二维正态分布,memory use和CPU load之间存在明显的正相关关系,如果按照之前维度不相关的计算方法,图中的绿色异常点就会被视作是正常的(真实分布是倾斜的椭圆)。

在这里插入图片描述
一个直观上的思想是用化归的思想,你不是相关,那我想法子把你变成不相关的。在这个例子中,直觉的做法是找到倾斜的椭圆分布的长轴方向u1和短轴方向u2,计算数据点在这两个轴上的坐标(变换到这两个方向之后,新的维度之间显然是不相关的),以长轴为x轴,短轴为y轴建立新的坐标系;经过这样的变换后相当于将倾斜的椭圆放平,此时数据的各个维度之间不相关(学过主成分分析的同学有没有感觉这个概念很熟悉),就可以用前面各维度不相关的高斯分布解了。如下图所示:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

作者:Support Vector
链接:https://www.zhihu.com/question/36339816/answer/385944057
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值