神经网络数学基础-K L散度、JS 散度、Wasserstein 距离

最新推荐文章于 2024-04-01 00:34:01 发布

Phoenixtree_DongZhao

最新推荐文章于 2024-04-01 00:34:01 发布

阅读量1k

点赞数

文章标签：机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014546828/article/details/107999811

版权

目录

JS 散度 (Jensen-Shannon)

Wasserstein 距离

KL 散度

KL散度又称为相对熵，信息散度，信息增益。KL 散度是是两个概率分布和差别的非对称性的度量。 KL 散度是用来度量使用基于的编码来编码来自的样本平均所需的额外的位元数。典型情况下，表示数据的真实分布，表示数据的理论分布、模型分布，或的近似分布。

定义如下：

因为对数函数是凸函数，所以KL散度的值为非负数。

KL 散度并不满足距离的性质：

KL 散度不是对称的

即 $D_{KL}(P||Q)\neq D_{KL}(Q||P)$ 。具体详细解释，可参考博客：https://www.jiqizhixin.com/articles/0224。

KL 散度不满足三角不等式。

关于这点，我暂时没有搜到相关博客。希望知道的大牛可以指点一下。

JS 散度 (Jensen-Shannon)

为了解决了 KL 散度非对称的问题，基于 KL 散度的变体，JS 散度度量了两个概率分布的相似度。一般地，JS 散度是对称的，其取值是 0 到 1 之间。定义如下：

$JS(P||Q)=\frac{1}{2}KL(P||\frac{P+Q}{2})+\frac{1}{2}KL(Q||\frac{P+Q}{2})$

虽然 JS 散度可以对称，但有一个致命问题：

如果两个分配 P,Q 离得很远，完全没有重叠的时候，那么 KL 散度值是没有意义的，而 JS 散度值是一个常数。这就意味这这一点的梯度为 0。梯度消失了。下图是证明过程。

为什么会出现两个分布没有重叠的现象？

上面几张图来自：https://blog.csdn.net/weixin_44441131/article/details/105878383

Wasserstein 距离

Wasserstein 距离度量两个概率分布之间的距离，定义如下：

$W(P,Q)=\inf_{\gamma\sim \Pi (P,Q)} \mathbb{E}_{(x,y)\sim \gamma}[||x-y||]$

$\Pi (P,Q)$ 是和分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布 $\gamma$ ，可以从中采样 $(x,y)\sim\gamma$ 得到一个样本和，并计算出这对样本的距离 ||x-y|| ，所以可以计算该联合分布 $\gamma$ 下，样本对距离的期望值 $\mathbb{E}_{(x,y)\sim \gamma }[||x-y||]$ 。在所有可能的联合分布中能够对这个期望值取到的下界 $\inf_{\gamma\sim \Pi (P,Q)} \mathbb{E}_{(x,y)\sim \gamma}[||x-y||]$ 就是 Wasserstein 距离。

直观上可以把 $\mathbb{E}_{(x,y)\sim \gamma }[||x-y||]$ 理解为在 $\gamma$ 这个路径规划下把土堆挪到土堆所需要的消耗。而 Wasserstein 距离就是在最优路径规划下的最小消耗。所以 Wesserstein 距离又叫 Earth-Mover（推土机）距离。

Wessertein 距离相比 KL 散度和 JS 散度的优势在于：

即使两个分布的支撑集没有重叠或者重叠非常少，仍然能反映两个分布的远近。而 JS 散度在此情况下是常量，KL 散度可能无意义。这也是 Wessertein GAN 的核心思想。

关于Wasserstein 距离更具体细节，可以参考博客：

https://blog.csdn.net/m0_37805255/article/details/96968397。

Phoenixtree_DongZhao

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
神经网络数学基础-K L散度、JS 散度、Wasserstein 距离

目录KL 散度JS 散度 (Jensen-Shannon)Wasserstein 距离KL 散度KL散度又称为相对熵，信息散度，信息增益。KL 散度是是两个概率分布和差别的非对称性的度量。 KL 散度是用来度量使用基于的编码来编码来自的样本平均所需的额外的位元数。典型情况下，表示数据的真实分布，表示数据的理论分布、模型分布，或的近似分布。定义如下：因为对数函数是凸函数，所以KL散度的值为非负数。KL 散度并不满足距离的性质：KL 散度不是对称.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。