©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络
正态分布是最常见的连续型概率分布之一。它是给定均值和协方差后的最大熵分布(参考《“熵”不起:从熵、最大熵原理到最大熵模型(二)》[1] ),也可以看作任意连续型分布的二阶近似,它的地位就相当于一般函数的线性近似。从这个角度来看,正态分布算得上是最简单的连续型分布了。也正因为简单,所以对于很多估计量来说,它都能写出解析解来。
本文主要来计算两个多元正态分布的几种度量,包括 KL 散度、巴氏距离和 W 距离,它们都有显式解析解。
正态分布
这里简单回顾一下正态分布的一些基础知识。注意,仅仅是回顾,这还不足以作为正态分布的入门教程。
1.1 概率密度
正态分布,也即高斯分布,是定义在 上的连续型概率分布,其概率密度函数为:
这里的 即均值向量(本文的向量默认情况下都为列向量),而 即为协方差矩阵,它要求是对称正定的。可以看到,正态分布由 和 唯一确定,因此不难想象它的统计量都是 和 的函数。当 时,对应的分布称为“标准正态分布”。
1.2 基本性质
通常来说,基本的统计量就是均值和方差了,它们对应着正态分布的两个参数:
由此也可以推出二阶矩的结果:
还有一个常用的统计量是它的熵:
其计算过程可以参考后面 KL 散度的推导。
1.3 高斯积分
概率密度函数意味着 ,这就可以推出:
设 ,那么得到高斯积分:
利用它我们可以算出正态分布的特征函数:
特征函数可以用来算正态分布的各阶矩。
线性代数
这里补充一些线性代数基础,它们在后面的推导中会频繁用到。同样地,这仅仅是“回顾”,并不能作为线性代数教程。
2.1 内积范数
首先,我们来定义内积和范数。对于向量 和 ,内积按照:
来定义,而模长定义为 。对于 的矩阵 ,我们按照类似的方式定义:
这称为 Frobenius 内积,对应的 称为 Frobenius 范数。不难看到,Frobenius 内积和范数,事实上就是把矩阵展平为向量后,当作常规的向量来运算。
关于 Frobenius 内积,最关键的性质之一是成立恒等式:
也就是说,矩阵的 Frobenius 内积可以转化为矩阵乘法的迹,并且交换相乘顺序不改变结果(不改变迹的结果,但是矩阵乘法的整体结果会改变)。
2.2 对称正定
接着,来看对称正定矩阵的一些性质。 是一个对称正定矩阵,对称说的是 ,正定说的是对于任意非零向量 ,都有 。可以证明,如果 都是对称正定矩阵,那么 也都是对称正定矩阵。如果 , 是可逆阵,那么 是对称正定的当且仅当 是对称正定的。
此外还有半正定的概念,指对于任意非零向量 ,都有