度量两个概率分布差异性/距离的指标总结
前言
各种度量准则
KL 散度(相对熵)
KL 散度(Kullback–Leibler divergence)用于衡量两个概率分布之间的差异。值越小,表示两个分布越接近。
离散形式:
连续形式:
特点:
(1) 非对称性, 根据定义显而易见:
(2)非负性,当两个分布完全相同时,其值=0,最小;
(3)不满足三角不等式性;
交叉熵
交叉熵一般作为多分类问题的损失函数, 定义如下:
离散形式:
交叉熵与KL散度的关系
D
K
L
(
p
∣
∣
q
)
=
−
H
(
p
)
+
H
(
p
,
q
)
D_{KL}(p||q)=-H(p)+H(p,q)
DKL(p∣∣q)=−H(p)+H(p,q), 推导如下:
从这个关系也可以推测在分类任务中一般使用交叉熵作为损失函数的原因
:目标是训练模型使得模型拟合的分布于数据的真实分布差异尽可能小,自然想到KL散度,然后,数据集的真实标记是确定的,也就是
H
(
P
)
H(P)
H(P)实际上为常数,因此最小化交叉熵即可。
JS散度(Jensen-Shannon divergence)
JS散度度量两个概率分布的差异度,它基于KL散度的变体,解决了KL散度非对称的问题
,其取值是 0 到 1 之间。
定义如下:
J
S
(
p
∣
∣
q
)
=
1
2
K
L
(
p
,
p
+
q
2
)
+
1
2
K
L
(
q
,
p
+
q
2
)
JS(p||q)=\frac{1}{2}KL(p, \frac{p+q}{2})+\frac{1}{2}KL(q, \frac{p+q}{2})
JS(p∣∣q)=21KL(p,2p+q)+21KL(q,2p+q)
Wasserstein-1距离
Wasserstein-1距离又叫做Earth-Mover (EM)distance, 定义如下:
其中Π(Pr,Pg)表示边际分别为Pr和Pg的所有联合分布γ(x,y)的集合。 直观地,γ(x,y)表示从x到y必须传输多少“质量”才能将分布Pr转换为分布Pg。 EM距离就是最佳运输计划的“成本”。
Wasserstein-1距离 相比于KL divergence和JS divergence的优势在于
: 即使两个分布没有重叠,Wasserstein-1距离仍然能够反映他们的远近。而KL散度和JS散度度量在两个分布完全没有重叠的时候存在的问题是:KL散度值是没有意义,JS散度值是一个常数。这就意味这这一点的梯度为 0。梯度消失了,根本无法训练。
References
1.Wasserstein GAN
2.https://blog.csdn.net/Avery123123/article/details/102681688
总结
未完待续…