两个多元正态分布的KL散度、巴氏距离和W距离

本文详述了两个多元正态分布之间的KL散度、巴氏距离和W距离的计算,提供了显式解析解。通过回顾正态分布的基础知识、线性代数中的内积范数、对称正定矩阵以及矩阵求导等概念,文章逐步推导出这些度量的公式,并讨论了特定情况下的简化结果。这些度量在概率分布比较和正则化等领域有广泛应用。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

正态分布是最常见的连续型概率分布之一。它是给定均值和协方差后的最大熵分布(参考《“熵”不起:从熵、最大熵原理到最大熵模型(二)》[1] ),也可以看作任意连续型分布的二阶近似,它的地位就相当于一般函数的线性近似。从这个角度来看,正态分布算得上是最简单的连续型分布了。也正因为简单,所以对于很多估计量来说,它都能写出解析解来。

本文主要来计算两个多元正态分布的几种度量,包括 KL 散度、巴氏距离和 W 距离,它们都有显式解析解。

正态分布

这里简单回顾一下正态分布的一些基础知识。注意,仅仅是回顾,这还不足以作为正态分布的入门教程。

1.1 概率密度

正态分布,也即高斯分布,是定义在 上的连续型概率分布,其概率密度函数为:

这里的 即均值向量(本文的向量默认情况下都为列向量),而 即为协方差矩阵,它要求是对称正定的。可以看到,正态分布由 唯一确定,因此不难想象它的统计量都是 的函数。当 时,对应的分布称为“标准正态分布”。

1.2 基本性质

通常来说,基本的统计量就是均值和方差了,它们对应着正态分布的两个参数:

由此也可以推出二阶矩的结果:

还有一个常用的统计量是它的熵:

其计算过程可以参考后面 KL 散度的推导。

1.3 高斯积分

概率密度函数意味着 ,这就可以推出:

,那么得到高斯积分:

利用它我们可以算出正态分布的特征函数:

特征函数可以用来算正态分布的各阶矩。

线性代数

这里补充一些线性代数基础,它们在后面的推导中会频繁用到。同样地,这仅仅是“回顾”,并不能作为线性代数教程。

2.1 内积范数

首先,我们来定义内积和范数。对于向量 ,内积按照:

来定义,而模长定义为 。对于 的矩阵 ,我们按照类似的方式定义:

这称为 Frobenius 内积,对应的 称为 Frobenius 范数。不难看到,Frobenius 内积和范数,事实上就是把矩阵展平为向量后,当作常规的向量来运算。

关于 Frobenius 内积,最关键的性质之一是成立恒等式:

也就是说,矩阵的 Frobenius 内积可以转化为矩阵乘法的迹,并且交换相乘顺序不改变结果(不改变迹的结果,但是矩阵乘法的整体结果会改变)。

2.2 对称正定

接着,来看对称正定矩阵的一些性质。 是一个对称正定矩阵,对称说的是 ,正定说的是对于任意非零向量 ,都有 。可以证明,如果 都是对称正定矩阵,那么 也都是对称正定矩阵。如果 是可逆阵,那么 是对称正定的当且仅当 是对称正定的。

此外还有半正定的概念,指对于任意非零向量 ,都有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值