Lipschitz连续 | Wasserstein距离 | KL散度(Kullback–Leibler divergence) | JS散度(Jensen-Shannon)

最新推荐文章于 2024-04-02 17:43:18 发布

17西伯利亚狼

最新推荐文章于 2024-04-02 17:43:18 发布

阅读量7.1k

点赞数 3

分类专栏：深度学习计算机视觉机器学习数学文章标签： Lipschitz Wasserstein KL JS 信息论

机器学习同时被 3 个专栏收录

13 篇文章 0 订阅

订阅专栏

计算机视觉

11 篇文章 0 订阅

订阅专栏

深度学习

6 篇文章 0 订阅

订阅专栏

看论文经常看见这几个名词，但是概念却不甚了解，所以在此立贴汇总，方便查看。不定期更新~

Lipschitz（利普希茨）连续定义：

有函数f(x)，如果存在一个常量K，使得对f(x)定义域上（可为实数也可以为复数）的任意两个值满足如下条件：

|f(x1)−f(x2)|≤|x1−x2|∗K

那么称函数f(x)满足Lipschitz连续条件，并称K为f(x)的Lipschitz常数。Lipschitz连续比一致连续要强。它限制了函数的局部变动幅度不能超过某常量。

Wasserstein距离

Wasserstein距离又叫Earth-Mover距离(EM距离)，用于衡量两个分布之间的距离，定义：

W(P1,P2)=infγ∼Π(P1,P2)E(x,y)∼γ[||x−y||]
Π(P1,P2)是P1和P2分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ，可以从中采样(x,y)∼γ得到一个样本x和y，并计算出这对样本的距离||x−y||，所以可以计算该联合分布γ下，样本对距离的期望值E(x,y)∼γ[||x−y||]。在所有可能的联合分布中能够对这个期望值取到的下界infγ∼Π(P1,P2)E(x,y)∼γ[||x−y||]就是Wasserstein距离。

直观上可以把E(x,y)∼γ[||x−y||]理解为在γ这个路径规划下把土堆P1挪到土堆P2所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗。所以Wesserstein距离又叫Earth-Mover距离。Wessertein距离相比KL散度和JS散度的优势在于，即使两个分布的支撑集没有重叠或者重叠非常少，仍然能反映两个分布的远近。而JS散度在此情况下是常量，KL散度可能无意义。根据Kantorovich-Rubinstein对偶原理，可以得到Wasserstein距离的等价形式：

W(P1,P2)=sup||f||L≤1Ex∼P1[f(x)]−Ex∼P2[f(x)]

KL散度(Kullback–Leibler divergence)

KL散度是用于衡量分布之间的差异程度的，又称为相对熵、信息增益。
概率分布P1和P2的KL散度为：

KL(P1||P2)=Ex∼P1logP1P2=∫xP1(x)logP1P2dx.

可以认为是分布之间的“距离”，但是只可以在直观上这样理解，KL散度其实不满足距离的定义：首先它不是对称的；其次不满足三角不等式。在高维空间中如果两个分布不重叠或者重叠部分可忽略，则KL散度和JS散度反映不了远近，而是一个常量。

JS散度(Jensen-Shannon)

JS散度相似度衡量指标。现有两个分布P1和P2，其JS散度公式为：

JS(P1||P2)=12KL(P1||P1+P22)+12KL(P2||P1+P22)

由定义可以看出，JS散度是对称的，可以用于衡量两种不同分布之间的差异。JS散度用于生成对抗网络的数学推导上。

文章来源：https://blog.csdn.net/victoriaw/article/details/56674777

17西伯利亚狼

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Lipschitz连续 | Wasserstein距离 | KL散度(Kullback–Leibler divergence) | JS散度(Jensen-Shannon)

看论文经常看见这几个名词，但是概念却不甚了解，所以在此立贴汇总，方便查看。不定期更新~Lipschitz（利普希茨）连续定义：有函数f(x)，如果存在一个常量K，使得对f(x)定义域上（可为实数也可以为复数）的任意两个值满足如下条件：|f(x1)−f(x2)|≤|x1−x2|∗K那么称函数f(x)满足Lipschitz连续条件，并称K为f(x)的Lipschitz常数。Lipsch...
复制链接

扫一扫