Wasserstein Distance相关笔记

最新推荐文章于 2024-08-11 21:08:01 发布

MC数据局

最新推荐文章于 2024-08-11 21:08:01 发布

阅读量1.5k

点赞数

分类专栏：休大UH访学博士生涯

原文链接：https://zhuanlan.zhihu.com/p/58506295

版权

博士生涯同时被 2 个专栏收录

267 篇文章 60 订阅

订阅专栏

休大UH访学

82 篇文章 11 订阅

订阅专栏

常见的有很多衡量概率分布差异的度量方式，比如total variation，还有经常被用到的KL散度。相比于这些度量方式，Wasserstein距离有如下一些好处。

能够很自然地度量离散分布和连续分布之间的距离；
不仅给出了距离的度量，而且给出如何把一个分布变换为另一分布的方案；
能够连续地把一个分布变换为另一个分布，在此同时，能够保持分布自身的几何形态特征。
1. 其他距离度量的缺陷

首先注意到KL散度不是距离度量，它不满足对称性。常见的距离度量有，

`Kullback-Leibler Divergence`，即`K-L散度`，是一种量化两种概率分布P和Q之间差异的方式，又叫`相对熵`。在概率学和统计学上，我们经常会使用一种`更简单的、近似的分布`来替代`观察数据`或`太复杂的分布`。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。

K-L 散度的定义

这些距离度量没法衡量离散分布和连续分布之间的距离：假设 p是均匀分布 U[0,1] 的概率密度， q是离散均匀分布 {0,1/N,...,1}的概率密度。其total variation等于1，即完全不相似，但是凭感觉上来说，它们两个是很相似的。在Wasserstein距离度量下，它们的距离为 1/N ，这看起来就比较合理了。

这些距离都忽略了概率分布之间的几何特性：它们几乎都有一个共同的特征，那就是都是对应点的概率密度函数相比较，这会忽略其几何特性。比如下图中，左边的分布应该离中间的分布更近，而中间的离右边的更远，但是其他度量无法反应这个特性，但Wasserstein距离可以。