对于连续型随机变量,假设P为随机变量X的概率分布,则p(x)为随机变量X在X = x处的概率
三者都是用来衡量两个概率分布P(x)和Q(x)之间的差异性的指标
KL散度
KL散度(Kullback–Leibler divergence)又称KL距离,相对熵。
D
(
P
∣
∣
Q
)
=
∫
−
∞
∞
P
(
x
)
l
o
g
P
(
x
)
Q
(
x
)
D(P||Q)=\int_{-\infty}^\infty P(x)log\frac{P(x)}{Q(x)}
D(P∣∣Q)=∫−∞∞P(x)logQ(x)P(x)
- 不对称性:即D(P||Q)!=D(Q||P)
- 非负性:即D(P||Q)>0
- P(x)和Q(x)的相似度越高,KL散度越小。
JS散度
JS散度(Jensen-Shannon divergence)也称JS距离,是KL散度的一种变形。
J
S
(
P
∣
∣
Q
)
=
1
2
K
L
(
P
(
x
)
∣
∣
P
(
x
)
+
Q
(
x
)
2
)
+
1
2
K
L
(
Q
(
x
)
∣
∣
P
(
x
)
+
Q
(
x
)
2
)
JS(P||Q)=\frac{1}{2}KL(P(x)||\frac{P(x)+Q(x)}{2})+\frac{1}{2}KL(Q(x)||\frac{P(x)+Q(x)}{2})
JS(P∣∣Q)=21KL(P(x)∣∣2P(x)+Q(x))+21KL(Q(x)∣∣2P(x)+Q(x))
- 值域范围:JS散度的值域范围是[0,1],相同为0,相反为1。
- 对称性:JS(P||Q)=JS(Q||P)
信息熵
- 随机变量X在x处的香农信息量为: − l o g ( p ( x ) ) -log(p(x)) −log(p(x)),确定性越大,信息量越小。
- 信息熵 H ( p ) H(p) H(p)是香农信息量 − l o g ( p ( x ) ) -log(p(x)) −log(p(x))的数学期望,即所有 X= x 处的香农信息量的和,由于每一个x的出现概率不一样,需要用p(x) 加权求和。 H ( P ) = − P ( x ) l o g P ( x ) H(P)=-P(x)logP(x) H(P)=−P(x)logP(x)信息熵是用于刻画消除随机变量X的不确定性所需要的总体信息量的大小。
交叉熵(Cross Entropy)
在神经网络中,交叉熵可以作为损失函数,因为它可以衡量P和Q的相似性。
H
(
P
,
Q
)
=
−
P
(
x
)
l
o
g
Q
(
x
)
H(P,Q)=-P(x)logQ(x)
H(P,Q)=−P(x)logQ(x)
交叉熵和相对熵的关系:
D
(
P
∣
∣
Q
)
=
H
(
P
,
Q
)
−
H
(
P
)
D(P||Q)=H(P,Q)-H(P)
D(P∣∣Q)=H(P,Q)−H(P)