两个多元正态分布的KL散度、巴氏距离和W距离

PaperWeekly

于 2021-07-23 21:09:45 发布

阅读量5k

点赞数 6

文章标签：机器学习人工智能 bmp 线性代数办公软件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/119046579

版权

本文详述了两个多元正态分布之间的KL散度、巴氏距离和W距离的计算，提供了显式解析解。通过回顾正态分布的基础知识、线性代数中的内积范数、对称正定矩阵以及矩阵求导等概念，文章逐步推导出这些度量的公式，并讨论了特定情况下的简化结果。这些度量在概率分布比较和正则化等领域有广泛应用。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

正态分布是最常见的连续型概率分布之一。它是给定均值和协方差后的最大熵分布（参考《“熵”不起：从熵、最大熵原理到最大熵模型（二）》[1] ），也可以看作任意连续型分布的二阶近似，它的地位就相当于一般函数的线性近似。从这个角度来看，正态分布算得上是最简单的连续型分布了。也正因为简单，所以对于很多估计量来说，它都能写出解析解来。

本文主要来计算两个多元正态分布的几种度量，包括 KL 散度、巴氏距离和 W 距离，它们都有显式解析解。

正态分布

这里简单回顾一下正态分布的一些基础知识。注意，仅仅是回顾，这还不足以作为正态分布的入门教程。

1.1 概率密度

正态分布，也即高斯分布，是定义在上的连续型概率分布，其概率密度函数为：

这里的即均值向量（本文的向量默认情况下都为列向量），而即为协方差矩阵，它要求是对称正定的。可以看到，正态分布由和唯一确定，因此不难想象它的统计量都是和的函数。当时，对应的分布称为“标准正态分布”。

1.2 基本性质

通常来说，基本的统计量就是均值和方差了，它们对应着正态分布的两个参数：

由此也可以推出二阶矩的结果：

还有一个常用的统计量是它的熵：

其计算过程可以参考后面 KL 散度的推导。

1.3 高斯积分

概率密度函数意味着，这就可以推出：

设，那么得到高斯积分：

利用它我们可以算出正态分布的特征函数：

特征函数可以用来算正态分布的各阶矩。

线性代数

这里补充一些线性代数基础，它们在后面的推导中会频繁用到。同样地，这仅仅是“回顾”，并不能作为线性代数教程。

2.1 内积范数

首先，我们来定义内积和范数。对于向量和，内积按照：

来定义，而模长定义为。对于的矩阵，我们按照类似的方式定义：

这称为 Frobenius 内积，对应的称为 Frobenius 范数。不难看到，Frobenius 内积和范数，事实上就是把矩阵展平为向量后，当作常规的向量来运算。

关于 Frobenius 内积，最关键的性质之一是成立恒等式：

也就是说，矩阵的 Frobenius 内积可以转化为矩阵乘法的迹，并且交换相乘顺序不改变结果（不改变迹的结果，但是矩阵乘法的整体结果会改变）。

2.2 对称正定

接着，来看对称正定矩阵的一些性质。是一个对称正定矩阵，对称说的是，正定说的是对于任意非零向量，都有。可以证明，如果都是对称正定矩阵，那么也都是对称正定矩阵。如果，是可逆阵，那么是对称正定的当且仅当是对称正定的。

此外还有半正定的概念，指对于任意非零向量，都有

最低0.47元/天解锁文章

关注

6
点赞
踩
43

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。