度量两个概率分布差异性/距离的指标总结_KL 散度(相对熵)交叉熵 JS散度 Wasserstein-1距离 Earth-Mover (EM)distance

前言

各种度量准则

KL 散度(相对熵)

KL 散度(Kullback–Leibler divergence)用于衡量两个概率分布之间的差异。值越小,表示两个分布越接近。
离散形式:
在这里插入图片描述
连续形式:
在这里插入图片描述
特点:
(1) 非对称性, 根据定义显而易见:
在这里插入图片描述
(2)非负性,当两个分布完全相同时,其值=0,最小;
(3)不满足三角不等式性;


交叉熵

交叉熵一般作为多分类问题的损失函数, 定义如下:
离散形式:
在这里插入图片描述

交叉熵与KL散度的关系

D K L ( p ∣ ∣ q ) = − H ( p ) + H ( p , q ) D_{KL}(p||q)=-H(p)+H(p,q) DKL(pq)=H(p)+H(p,q), 推导如下:
在这里插入图片描述
从这个关系也可以推测在分类任务中一般使用交叉熵作为损失函数的原因:目标是训练模型使得模型拟合的分布于数据的真实分布差异尽可能小,自然想到KL散度,然后,数据集的真实标记是确定的,也就是 H ( P ) H(P) H(P)实际上为常数,因此最小化交叉熵即可。


JS散度(Jensen-Shannon divergence)

JS散度度量两个概率分布的差异度,它基于KL散度的变体,解决了KL散度非对称的问题,其取值是 0 到 1 之间。
定义如下:
J S ( p ∣ ∣ q ) = 1 2 K L ( p , p + q 2 ) + 1 2 K L ( q , p + q 2 ) JS(p||q)=\frac{1}{2}KL(p, \frac{p+q}{2})+\frac{1}{2}KL(q, \frac{p+q}{2}) JS(pq)=21KL(p,2p+q)+21KL(q,2p+q)


Wasserstein-1距离

Wasserstein-1距离又叫做Earth-Mover (EM)distance, 定义如下:
在这里插入图片描述
其中Π(Pr,Pg)表示边际分别为Pr和Pg的所有联合分布γ(x,y)的集合。 直观地,γ(x,y)表示从x到y必须传输多少“质量”才能将分布Pr转换为分布Pg。 EM距离就是最佳运输计划的“成本”。
在这里插入图片描述
Wasserstein-1距离 相比于KL divergence和JS divergence的优势在于: 即使两个分布没有重叠,Wasserstein-1距离仍然能够反映他们的远近。而KL散度和JS散度度量在两个分布完全没有重叠的时候存在的问题是:KL散度值是没有意义,JS散度值是一个常数。这就意味这这一点的梯度为 0。梯度消失了,根本无法训练。

References

1.Wasserstein GAN
2.https://blog.csdn.net/Avery123123/article/details/102681688

总结

未完待续…

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MasterQKK 被注册

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值