Wasserstein Distance相关笔记

常见的有很多衡量概率分布差异的度量方式,比如total variation,还有经常被用到的KL散度。相比于这些度量方式,Wasserstein距离有如下一些好处。

  • 能够很自然地度量离散分布和连续分布之间的距离;
  • 不仅给出了距离的度量,而且给出如何把一个分布变换为另一分布的方案;
  • 能够连续地把一个分布变换为另一个分布,在此同时,能够保持分布自身的几何形态特征。

    1. 其他距离度量的缺陷

首先注意到KL散度不是距离度量,它不满足对称性。常见的距离度量有,

Kullback-Leibler Divergence,即K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵。在概率学和统计学上,我们经常会使用一种更简单的、近似的分布来替代观察数据太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。

K-L 散度的定义

这些距离度量没法衡量离散分布和连续分布之间的距离:假设 p是均匀分布 U[0,1] 的概率密度, q是离散均匀分布 {0,1/N,...,1}的概率密度。其total variation等于1,即完全不相似,但是凭感觉上来说,它们两个是很相似的。在Wasserstein距离度量下,它们的距离为 1/N ,这看起来就比较合理了。

这些距离都忽略了概率分布之间的几何特性:它们几乎都有一个共同的特征,那就是都是对应点的概率密度函数相比较,这会忽略其几何特性。比如下图中,左边的分布应该离中间的分布更近,而中间的离右边的更远,但是其他度量无法反应这个特性,但Wasserstein距离可以。

基于Wasserstein距离可以找出Wasserstein平均(Wasserstein barycenter),相比于欧式平均(Eulidean average)来说,它更能够描述其形态特征,如图2所示。

Wasserstein距离不仅告诉两个分布之间的距离,而且能够告诉我们它们具体如何不一样,即如何从一个分布转化为另一个分布。如下图所示,Wasserstein能够告诉我们每一份probability density的转移方案。

这个转化过程还可以做成一个连续的过程,可以把A分布连续转化为B分布,并且这个转化过程是能够保持其几何特征的,如下面两图所示。

2. Wasserstein距离定义

Wasserstein距离的起源是optimal transport problem,把概率分布想象成一堆石子,如何移动一堆石子,通过最小的累积移动距离把它堆成另外一个目标形状,这就是optimal transport所关心的问题。

首先,要能完成这个操作,先要确保本来的这一堆石子的总质量要和目标石子堆总质量一样;考虑到概率分布的归一化条件,这一点是自然被满足的。

其次,我们暂时假设石子都是很小的,无限可分的;毕竟如果一个大石块要求堆成两座山仅仅通过移动肯定没法做到。(后面会有另外的定义方式来把大石块“劈开”)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值