先给出结论:
- cross entropy和KL-divergence作为目标函数效果是一样的,从数学上来说相差一个常数。
- logistic loss 是cross entropy的一个特例
1. cross entropy和KL-divergence
假设两个概率分布 p(x) p ( x ) 和 q(x) q ( x ) , H(p,q) H ( p , q ) 为cross entropy, DKL(p|q) D K L ( p | q ) 为 KL divergence。
交叉熵的定义:
KL divergence的定义:
推导:
也就是说,cross entropy也可以定义为:
直观来说,由于p(x)是已知的分布,H(p)是个常数,cross entropy和KL divergence之间相差一个常数。
2. logistic loss 和cross entropy
假设
p∈{y,1−y}
p
∈
{
y
,
1
−
y
}
,
q∈{y^,1−y^}
q
∈
{
y
^
,
1
−
y
^
}
, cross entropy可以写为logistic loss: