交叉熵:求目标与预测之间的差距
基本概念:
信息量:越不可能的事件发生了,我们获取到的信息量就越大。越可能发生的事件发生了,我们获取到的信息量就越小。那么信息量应该和事件发生的概率有关。
假设X是一个离散型随机变量,其取值集合为χ,概率分布函数p(x)=Pr(X=x),x∈χ,则定义事件X=
x
o
x_{o}
xo的信息量为:
I(
x
0
x_{0}
x0)=−log(p(
x
x
x_{x}
xx))
熵:用来表示所有信息量的期望,即:
H
(
X
)
=
−
∑
i
=
1
n
p
(
x
i
)
l
o
g
(
p
(
x
i
)
)
H(X)=−\sum_{i=1}^{n}p(x_{i})log(p(x_{i}))
H(X)=−∑i=1np(xi)log(p(xi))
相对熵(KL散度):如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异
KL散度的计算公式:
D
K
L
(
p
∣
∣
q
)
=
∑
i
=
1
n
p
(
x
i
)
l
o
g
(
p
(
x
i
)
q
(
x
i
)
)
D_{KL}(p||q)=\sum_{i=1}^{n}p(x_{i})log(p(x_{i})q(x_{i}))
DKL(p∣∣q)=∑i=1np(xi)log(p(xi)q(xi))
交叉熵:
H
(
p
,
q
)
=
−
∑
i
=
1
n
p
(
x
i
)
l
o
g
(
q
(
x
i
)
)
H(p,q)=− \sum_{i=1}^{n}p(x_{i})log(q(x_{i}))
H(p,q)=−∑i=1np(xi)log(q(xi))加粗样式