给一堆数据后怎么用r处理成正态分布_多元正态分布函数的理解

weixin_39696197

于 2020-11-23 05:24:17 发布

阅读量782

点赞数

文章标签：给一堆数据后怎么用r处理成正态分布

对于

维的多元正态分布

，其密度函数公式为：

当年学的时候只是强行记住了这个公式。但是协方差矩阵

怎么理解，归一化系数中

又是怎么来的，以及

的指数项为什么是

则一概不知。今天偶然遇到，发现可以从矩阵对角化的角度理解这个公式。

一元正态分布

回顾一下一元正态分布

的密度函数：

当存在多个互相独立的一元正态分布时，它们的联合概率密度函数为各自密度函数的乘积：

(3) 中 exp 的指数项可以写成如下的矩阵形式：

也就是：

，其中

为对角矩阵，对角线上的值为各个独立的一元正态分布的方差。而其行列式

。

故 (3) 可以转化为：

这正是 (1) 的形式。如果把各个一元正态分布组合起来，形成一个高维随机变量，这里的联合概率密度函数，就是该高维随机变量的概率密度函数。因此，对于各维独立的高维随机变量，公式 (1) 成立。

协方差矩阵的对角化

上一节中用独立的多个一元正态分布，推导出了多元正态分布的概率密度函数。然而，当各个子分布并不独立时应该怎么办呢？这就要借助矩阵对角化了。

对一组观测数据

，其均值为

，

其协方差矩阵为：

如果数据的每个维度是相互独立的，则协方差矩阵为对角矩阵，反之则不是。而矩阵的特征向量可以构建一组基底，将数据映射到新的空间，在新的空间下，数据各个维度相互独立。

各列为

的特征向量（经过了归一化），

为对角矩阵，对角线上为

的特征值，则有：

多元正态分布

上一节引出了

的特征向量矩阵

，该矩阵各列构成一组基底，将原本不线性独立的维度变独立：

。

而且由于

是实对称矩阵，它的特征向量两两正交，即

，因此

本身是一个“旋转”矩阵。如下图所示，对于二维正态分布，其概率密度函数的等高线是椭圆，对数据施加了

定义的旋转后，椭圆的两个轴将和坐标轴平行。

想象一堆观测数据，它们堆成小山（高的地方密度大，低的地方密度小）。我们把所有数据经过同样的旋转变换后，这个小山的形状并不会发生变化。也就是说，旋转前后各数据点的概率密度不变。

而旋转后的数据各维度相互独立，正好符合本文第二节的结论，可以直接套用公式 (1)。

根据方差公式易知，在新的基底下，数据的各个维度的方差就是

的特征值

。因此可以用

和

替换公式 (1) 中的

和

。这里只推导 exp 指数部分：

对 (4) 两边取逆：

代入 (5) 即为

。

同时，根据 (4) 有：

，而

为标准正交基，其行列式为 1，故：

。

综上，多元正态分布的公式为：

。

插图代码

import

weixin_39696197

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
给一堆数据后怎么用r处理成正态分布_多元正态分布函数的理解

对于维的多元正态分布，其密度函数公式为：当年学的时候只是强行记住了这个公式。但是协方差矩阵怎么理解，归一化系数中又是怎么来的，以及的指数项为什么是则一概不知。今天偶然遇到，发现可以从矩阵对角化的角度理解这个公式。一元正态分布回顾一下一元正态分布的密度函数：当存在多个互相独立的一元正态分布时，它们的联合概率密度函数为各自密度函数的乘积： (3) 中 exp 的指数项可...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。